为 什么 要 写 这 本 书 


Spark 大 数据 技术 还 在 如 火 如 茶 地 发 展 ，Spark 中 国 


初 的 部 署 安装 、 运 行 实例 ， 到 现在 越 来 越 需要 通过 Spar 


相关 案例 进行 总 结 ， 但 是 随 着 时 间 的 推移 ， 最 终 还 是 打算 将 其 中 通 


Spark 发 源 于 美国 加 州 大 学 伯克利 分 校 AMPLab 的 大 数 


峰会 的 召开 ， 各 地 meetup 的 火爆 举行 ， 开 源 软件 Spark 也 因此 水 涨 船 高 ， 很 多 公司 已 经 将 Spark 大 范 


构建 丰富 的 数据 分 析 应 


台 。Spark 当 下 已 成 为 Apache 基 金 会 的 顶级 开源 项 


， 拥 有 着 庞大 的 社 


出 


落地 并 且 应 用 。Spark 使 


的 算法 、 系 统 架构 以 及 应 


区 支持 ， 生 态 系统 


。 写 一 本 Spark 实 


者 的 需求 已 经 从 最 


案例 类 的 技术 书籍 ， 是 一 个 持续 了 很 久 的 想法 。 由 于 工作 较为 紧张 ， 最 初 只 是 将 参与 或 学 习 过 的 Spark 


居 分 析 平 台 ， 它 立足 于 内 存 计 算 ， 从 多 迭代 批量 处 理 出 发 ， 兼 顾 数据 仓库 、 流 处 理 和 图 计 
益 完善 ， 技 术 也 逐渐 走向 成 熟 。 


场景 抽象 出 来 ， 并 进行 适当 简化 ， 也 算是 一 种 总 结 和 分 享 。 


现在 越 来 越 多 的 同行 已 经 了 解 Spark， 并 且 开 始 使 


是 为 了 解决 上 述 问 题 而 着 意 编写 。 


本 书 希 望 带 给 读者 一 个 系统 化 的 视角 ， 秉 承 大 道 至 简 的 


开启 Spark 技 术 应 用 之 旅 。 


本 书 特色 


Spark， 但 是 国内 缺少 一 本 Spark| 


Spark 作 为 一 款 基于 内 存 的 分 布 式 计算 框架 ， 


有 简洁 的 接 [ 


， 可 以 快速 构建 上 


为 了 适合 读者 阅读 和 掌握 知识 结构 ， 本 书 从 Spark 基 本 概念 和 机 制 介绍 入 手 ， 结 合 笔者 实践 经 验 讲解 如 何在 Spark 之 上 构建 机 器 学 习 


的 实战 案例 类 的 书籍 ， 很 多 Spark 初 学 者 和 


层 数 据 分 析 算 法 ， 同 时 具有 很 好 的 兼容 性 ， 能 够 结合 


他 开源 数据 分 析 系 统 构建 数据 分 析 应 


E 导 思想 ， 介 绍 Spark 的 基本 原理 ， 如 何在 Spark 上 构建 复杂 数据 分 析 算 法 ， 以 及 Spark 如 何 与 其 他 开源 系统 进行 结合 构建 数据 分 析 应 用 ， 


读者 对 象 
本 书 中 一 些 实 操 和 应 用 章节 ， 比 较 适 数据 分 析 和 开发 人 员 ， 可 以 作为 工作 手边 书 ; 机 器 学 习 和 算法 方面 的 章节 ， 比 较 适 合 机 器 学 习 和 算法 工程 师 ， 可 以 分 享 经 验 ， 拓 展 解决 问题 的 思路 。 
“ Spatk 初 学 者 
Spatk 应 用 开发 人 员 
. Spatk 机 器 学 习 爱 好 者 
“ 开源 软件 爱好 者 
“ 其 他 对 大 数据 技术 感 兴趣 的 人 员 
如 何 阅读 本 书 
本 书 分 为 11 章 内 容 。 
第 1 章 ”从 Spark 概 念 出 发 ， 介 绍 Spark 的 来 龙 去 脉 ,阐述 Spark 机 制 与 如 何 进行 Spark 编 程 。 
第 2 章 ”详细 介绍 Spark 的 开发 环境 配置 。 
第 3 章 ”详细 介绍 Spark 生 态 系统 重要 组 件 Spark SQL、Spark Streaming、GraphX、MLlib 的 实现 机 制 ， 为 后 续 使 用 奠定 基础 。 
第 4 章 ”详细 介绍 如 何 通 过 Flume、Kafka、Spark Streaming、HDFS、Flask 等 开源 工具 构建 实时 与 离线 数据 分 析 流水 线 。 
第 5 章 “从 实际 出 发 ， 详 细 介绍 如 何在 Azure 云 平台 ， 通 过 Nodejs、Azure Queue、Azure Table、Spark Streaming、MLlib 等 组 件 对 用 户 行为 数据 进行 分 析 与 推荐 。 
第 6 章 “详细 介绍 如 何 通过 Twitter API、Spark SQL、Spark Streaming、Cassandra、D3 等 组 件 对 Twitter 进行 情感 分 析 与 统计 分 析 。 
第 7 章 详细 介绍 如 何 通过 Scrapy、Kafka、MongoDB、Spark、Spark Streaming、Elastic Search 等 组 件 对 新 闻 进 行 抓 取 、 分 析 、 热 点 新 闻 聚 类 等 挖 握 工 作 。 
第 8 章 ”详细 介绍 了 协同 过 滤 概念 和 模型 ， 讲 解 了 如 何在 Spark 中 实现 基于 ltem-based、User-based 和 Model-based 协 同 过 滤 算法 的 推荐 系统 。 
第 9 章 “详细 介绍 了 社交 网 络 分 析 的 基本 概念 和 经 典 算法 ， 以 及 如 何 利用 Spark 实 现 这 些 经 典 算法 ， 实 网 络 的 分 析 。 
第 10 章 详细 介绍 了 主题 分 析 模 型 (LDA) ， 讲 解 如 何在 Spark 中 实现 LDA 算 法 ， 并 且 对 真实 的 新 闻 数 据 进行 分 析 。 
第 11 章 “详细 介绍 了 搜索 引 丈 的 基本 原理 ， 以 及 其 中 用 到 的 核心 搜索 排序 相关 算法 一 一 PageRank 和 Ranking SVM ， 并 讲解 了 如 何在 Spark 中 实现 PageRank 和 Ranking SVM 算法 ， 以 及 如 何 对 真实 的 
Web 数 据 进 行 分 析 。 


如 果 你 有 一 定 的 经 验 ， 能 够 理解 Spark 的 相关 基础 知识 和 使 


勘误 和 支持 


技巧 ， 那 么 可 以 直接 阅读 第 4~11 章 。 然 而 ， 如 果 你 是 一 名 初学 者 ， 请 一 定 从 第 1 


法 ， 并 最 后 结合 不 同 的 应 


的 基础 知识 开始 学 起 。 


等 多 种 计算 范式 ， 是 大 数据 系统 领域 的 全 栈 计 算 平 


发 人 员 只 能 参考 网 络 上 零散 的 博客 或 文档 ， 学 习 效率 较 慢 。 本 书 也 正 


或 者 产品 。 


场景 构建 数据 分 析 应 用 。 


由 于 笔者 的 水 平 有 限 ， 加 之 编写 时 间 仓 促 ， 书 中 难免 会 出 现 一 些 错误 或 者 不 准确 的 地 方 ， 晨 请 读者 批评 指正 。 如 果 你 有 更 多 的 宝贵 意见 ， 我 们 会 尽量 为 读者 提供 最 满意 的 解答 。 你 也 可 以 通过 微 博 @ 高 


彦 杰 gyj， 博 客 : http://blog.csdn.net/gaoyanjie55， 或 者 邮箱 gaoyanjie55@ 163.com 联 系 到 高 彦 杰 。 你 也 可 以 通过 邮箱 niyayu@foxmailcom 联 系 到 倪 亚 宇 。 
期 待 能 够 得 到 大 家 的 真挚 反馈 ， 在 技术 之 路 上 互 勉 共 进 。 
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第 1 章 Spark 简 介 


本 章 主要 介绍 Spark 框 架 的 概念 、 生 态 系统 、 架 构 及 RDD 等 ， 并 围绕 Spark 的 BDAS 项 目 及 其 子 项 目 进行 了 简要 介绍 。 目 前 ，Spark 生 态 系统 已 经 发 展 成 为 一 个 包含 多 个 子 项 目的 集合 ， 其 中 包 
SparkSQL、Spark Streaming、GraphX、MLIib 等 子 项 目 ， 本 章 只 进行 简要 介绍 ， 后 续 章 节 会 有 详细 阐述 。 


1.1 初 识 Spark 


Spark 是 基于 内 存 计算 的 大 数据 并 行 计算 框架 ， 因 为 它 基于 内 存 计算 ， 所 以 提高 了 在 大 数据 环境 下 数据 处 理 的 实时 性 ， 同 时 保证 了 高 容错 性 和 高 可 伸缩 性 ， 允 许 用 户 将 Spark 部 署 在 大 量 廉价 硬件 之 上 ， 
形成 集群 。 


1.Spark 执 行 的 特点 


Hadoop 中 包含 计算 框架 MapReduce 和 分 布 式 文件 系统 HDFS。 


Spark 是 MapReduce 的 蔡 代 方案 ， 而 且 兼 容 HDFS、Hive 等 分 布 式 存储 层 ， 融 入 Hadoop 的 生态 系统 ， 并 弥补 MapReduce 的 不 足 。 


(1) 中 间 结 果 输 出 


Spark 将 执行 工作 流 抽象 为 通用 的 有 向 无 环 图 执行 计划 (DAG) ， 可 以 将 多 Stage 的 任务 串联 或 者 并 行 执行 ， 而 无 需 将 Stage 的 中 间 结 果 输 出 到 HDFs 中 ， 类 似 的 引擎 包括 Flink、Dryad、Tez。 


吨 


(2) 数据 格式 和 内 存 布 


Spark 抽 象 出 分 布 式 内 存 存储 结构 弹性 分 布 式 数据 集 RDD， 可 以 理解 为 利用 分 布 式 的 数组 来 进行 数据 的 存储 。RDD 能 支持 粗 粒 度 写 操作 ， 但 对 于 读 取 操作 ， 它 可 以 精确 到 每 条 记录 。Spark 的 特性 是 能 
控制 数据 在 不 同 节 点 上 的 分 区 ， 用 户 可 以 自 定义 分 区 策略 。 


(3) 执行 策略 


Spark 执 行 过 程 中 不 同 Stage 之 间 需 要 进行 Shuffle。Shuffle 是 连接 有 依赖 的 Stage 的 桥梁 ， 上 游 Stage 输 出 到 下 游 Stage 中 必须 经 过 Shuffle 这 个 环节 ， 通 过 Shuffle 将 相同 的 分 组 数据 拆 分 后 聚合 到 同一 
个 节点 再 处 理 。Spark Shuffle 支 持 基于 Hash 或 基于 排序 的 分 布 式 聚 合 机 制 。 


(4) 任务 调度 的 开销 


Spark 采 用 了 事件 驱动 的 类 库 AKKA 来 启动 任务 ， 通 过 线程 池 的 复 用 线程 来 避免 系统 启动 和 切换 开销 。 


2.Spark 的 优势 
Spark 的 一 站 式 解决 方案 有 很 多 的 优势 ， 分 别 如 下 所 述 。 


(1) 打造 全 栈 多 计算 范式 的 高 效 数据 流水 线 


支持 复杂 查询 与 数据 分 析 任 务 。 在 简单 的 “Map” 及 “Reduce” 操 作 之 外 ，Spark 还 支持 SQL 查询 、 流 式 计算 、 机 器 学 习 和 图 算法 。 同 时 ， 用 户 可 以 在 同一 个 工作 流 中 无 颖 搭配 这 些 计算 范式 。 


(2) 轻 量 级 快速 处 理 


Spark 代 码 量 较 小 ， 这 得 益 于 Scala 语 言 的 简洁 和 丰富 表达 力 ， 以 及 Spark 通 过 External DataSource API 充 分 利用 和 集成 Hadoop 等 其 他 第 三 方 组 件 的 能 力 。 同 时 Spark 基 于 内 存 计算 ， 可 通过 中 间 结 果 
缓存 在 内 存 来 减少 磁盘 /O 以 达到 性 能 的 提升 。 


(3) 易于 使 用 ， 支 持 多 语言 


Spark 支 持 通 过 Scala、Java 和 Python 编写 程序 ， 这 允许 开发 者 在 自己 熟悉 的 语言 环境 下 进行 工作 。 它 自 带 了 80 多 个 算 子 ， 同 时 允许 在 Shell 中 进行 交互 式 计算 。 用 户 可 以 利用 Spark 像 书写 单机 程序 一 样 
书写 分 布 式 程序 ， 轻 松 利用 Spark 搭 建 大 数据 内 存 计 算 平台 并 充分 利用 内 存 计 算 ， 实 现 海量 数据 的 实时 处 理 。 


(4) 与 External Data Source 多 数据 源 支 持 


Spark 可 以 独立 运行 ， 除 了 可 以 运行 在 当下 的 Yarn 集 群 管理 之 外 ， 它 还 可 以 读 取 已 有 的 任何 Hadoop 数 据 。 它 可 以 运行 多 种 数据 源 ， 比 如 Parquet、Hive、HBase、HDFS 等 。 这 个 特性 让 用 户 可 以 轻易 
迁移 已 有 的 持久 化 层 数据 。 


(5) 社区 活跃 度 高 


Spark 起 源 于 2009 年 ， 当 下 已 有 超过 600 多 位 工程 师 贡献 过 代码 。 开 源 系统 的 发 展 不 应 只 看 一 时 之 快 ， 更 重要 的 是 一 个 活跃 的 社区 和 强大 的 生态 系统 的 支持 。 


同时 也 应 该 看 到 Spark 并 不 是 完美 的 ，RDD 模 型 适合 的 是 粗 粒 度 的 全 局 数据 并 行 计 算 ; 不 适合 细 粒 度 的 、 需 要 异步 更 新 的 计算 。 对 于 一 些 计算 需求 ， 如 果 要 针对 特定 工作 负载 达到 最 优 性 能 ， 还 需要 使 
一 些 其 他 的 大 数据 系统 。 例 如 ， 图 计算 领域 的 GraphLab 在 特定 计算 负载 性 能 上 优 于 GraphX， 流 计算 中 的 storm 在 实时 性 要 求 很 高 的 场合 要 更 胜 Spark Streaming 一 筹 。 


1.2_ Spark 生态 系统 BDAS 


目前 ，Spark 已 经 发 展 成 为 包含 众多 子 项 目的 大 数据 计算 平台 。BDAs 是 伯克利 大 学 提出 的 基于 Spark 的 数据 分 析 栈 (BDAS) 。 其 核心 框架 是 Spark， 同 时 涵盖 支持 结构 化 数据 SQL 查询 与 分 析 的 查询 引 
擎 Spark SQL， 提 供 机 器 学 习 功能 的 系统 MLBase 及 底层 的 分 布 式 机 器 学 习 库 MLlib， 并 行 图 计算 框架 GraphX， 流 计算 框架 Spark Streaming， 近 似 查 询 引擎 BlinkDB， 内 存 分 布 式 文件 系统 Tachyon， 资 源 
管理 框架 Mesos 等 子 项 目 。 这 些 子 项 目 在 Spark 上 层 提供 了 更 高 层 、 更 丰富 的 计算 范式 。 


图 1-1 展 现 了 BDAS 的 主要 项 目 结构 图 。 


Apache Spark 


图 1-1 伯克利 数据 分 析 栈 (BDAS) 主要 项 目 结构 图 
下 面 对 BDAS 的 各 个 子 项 目 进行 更 详细 的 介绍 。 
(1) Spark 


Spark 是 整个 BDAS 的 核心 组 件 ， 是 一 个 大 数据 分 布 式 编程 框架 ， 不 仅 实现 了 MapReduce 的 算 子 map 函 数 和 reduce 函 数 及 计算 模型 ， 还 提供 了 更 为 丰富 的 算 子 ， 例 如 filter、join、groupByKey 等 。 
Spark 将 分 布 式 数据 抽象 为 RDD (弹性 分 布 式 数据 集 ) ， 并 实现 了 应 用 任务 调度 、RPC、 序 列 化 和 压缩 ， 并 为 运行 在 其 上 层 的 组 件 提供 API。 其 底层 采用 Scala 这 种 函数 式 语言 书写 而 成 ， 并 且 所 提供 的 Ap 深 
度 借鉴 函数 式 的 编程 思想 ， 提 供与 Scala 类 似 的 编程 接口 。 


图 1-2 所 示 即 为 Spark 的 处 理 流程 (主要 对 象 为 RDD) 。 


Spark 将 数据 在 分 布 式 环境 下 分 区 ， 然 后 将 作业 转化 为 有 向 无 环 图 (DAG) ， 并 分 阶段 进行 DAG 的 调度 和 任务 的 分 布 式 并 行 处 理 。 


(2) Spark SQL 


Spark SQL 提供 在 大 数据 上 的 SQL 查询 功能 ， 类 似 于 Shark 在 整个 生态 系统 的 角色 ， 它 们 可 以 统称 为 SQL on Spark。 之 前 ， 由 于 Shark 的 查询 编译 和 优化 器 依赖 Hive， 使 得 Shark 不 得 不 维护 一 套 Hive 分 
支 。 而 Spark SQL 使 用 Catalyst 作 为 查询 解析 和 优化 器 ， 并 在 底层 使 用 Spark 作 为 执行 引擎 实现 SQL 的 算 子 。 用 户 可 以 在 Spark 上 直接 书写 SQL， 相 当 于 为 Spark 扩 充 了 一 套 SQL 算 子 ， 这 无 疑 更 加 丰富 了 
Spark 的 算 子 和 功能 。 同 时 Spark SQL 不 断 兼容 不 同 的 持久 化 存储 (如 HDFS、Hive 等 )， 为 其 发 展 莫 定 广阔 的 空间 。 
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图 1-2 Spa 水 的 任务 处 理 流程 图 
(3) Spark Streaming 


Spark Streaming 通 过 将 流 数据 按 指定 时 间 片 票 积 为 RDD， 然 后 将 每 个 DD 进 行 批 处 理 ， 进 而 实现 大 规模 的 流 数据 处 理 。 其 吞吐 量 能 够 超越 现 有 主流 流 处 理 框 架 Storm， 并 提供 丰富 的 API 用 于 流 数据 计 
算 。 


(4) GraphX 


GraphX 基 于 BSP 模型 ， 在 Spark 之 上 封装 类 似 Pregel 的 接口 ， 进 行 大 规模 同步 全 局 的 图 计算 ， 尤 其 是 当 用 户 进行 多 轮 返 代 的 时 候 ， 基 于 Spark 内 存 计 算 的 优势 尤为 明显 。 
(5) MLlib 


MLlib 是 Spark 之 上 的 分 布 式 机 器 学 习 算 法 库 ， 同 时 包括 相关 的 测试 和 数据 生成 器 。M Llib 支 持 常见 的 机 器 学 习 问 题 ， 例 如 分 类 、 回 归 、 聚 类 以 及 协同 过 滤 ， 同 时 也 包括 一 个 底层 的 梯度 下 降 优 化 基础 算 
法 。 


1.3 ”Spark 架 构 与 运行 逻辑 


1.Spark 的 架构 
: Diiver: 运行 Application 的 main () 函数 并 且 创 建 SparkContext。 
“ Client: 用 户 提交 作业 的 客户 端 。 
:Worker: 集群 中 任何 可 以 运行 Application 代 码 的 节点 ， 运 行 一 个 或 多 个 Executotr 进 程 。 
“ Executor: 运行 在 Wotrker 的 Task 执 行 器 ，Executor 启 动 线程 池 运行 Task， 并 且 负 责 将 数据 存在 内 存 或 者 磁盘 上 。 每 个 Application 都 会 申请 各 自 的 Executor 来 处 理 任务 。 
“ SparkContext: 整个 应 用 的 上 下 文 ， 控 制 应 用 的 生命 周期 。 
:RDD: Spatk 的 基本 计算 单元 ， 一 组 RDD 形 成 执行 的 有 向 无 环 图 RDD Graph。 
: DAG Scheduler: 根据 Job 构 建 上 基于 Stage 的 DAG 工 作 流 ， 并 提交 Stage 给 TaskScheduler。 
“ TaskScheduler: 将 Task 分 发 给 Executor 执 行 。 


“ SpatkEnv: 线程 级 别 的 上 下 文 ， 存 储 运行 时 的 重要 组 件 的 引用 。 


2. 运 行 逻辑 


(1) Spark 作 业 提 交流 程 


如 图 1-3 所 示 ，Client 提 交 应 用 ，Master 找 到 一 个 Worker 启 动 Driver，Driver 向 Master 或 者 资源 管理 器 申请 资源 ， 之 后 将 应 用 转化 为 RDD 有 向 无 环 图 ， 再 由 DAGScheduler 将 RDD 有 向 无 环 图 转化 为 
Stage 的 有 向 无 环 图 提交 给 TaskScheduler， 由 TaskScheduler 提 交 任 务 给 Executor 进 行 执行 。 任 务 执行 的 过 程 中 其 他 组 件 再 协同 工作 确保 整个 应 用 顺利 执行 。 


SparkContext 


RDD DAG 


DAGScheduler 


_ 
Client ClusterManager 


TaskScheduler 


SparkEnv 


图 1-3 ”Spark 架构 


(2) Spark 作 业 运行 逻辑 


Worker 


Executor 


Executor 


[Task [rask | 


如 图 1-4 所 示 ， 在 Spark 应 用 中 ， 整 个 执行 流程 在 逻辑 上 运算 之 间 会 形成 有 向 无 环 图 。Action 算 子 触 发 之 后 会 将 所 有 累积 的 算 子 形成 一 个 有 向 无 环 


图 ， 然 后 由 调度 器 调度 该 图 上 的 任务 进行 运算 。Spark 


的 调度 方式 与 MapReduce 有 所 不 同 。Spark 根 据 RDD 之 间 不 同 的 依赖 关系 切 分 形成 不 同 的 阶段 (Stage) ， 一 个 阶段 包含 一 系列 函数 进行 流水 线 执行 。 
RDD，RDD 内 的 一 个 方 框 代表 一 个 数据 块 。 数 据 从 HDFS 输 入 Spark， 形 成 RDD A 和 RDD C，RDD C 上 执行 map 操 作 ， 转 换 为 RDD D，RDD B 和 RDD 
Shuffle。 最 后 RDD F 通 过 函数 saveAsSequenceFile 输 出 保存 到 HDFS 中 。 


图 中 的 A、B、C、D、E、F， 分 别 代表 不 同 的 
E 进 行 join 操作 转换 为 F， 而 在 B 到 F 的 过 程 中 又 会 进行 


Actions 


HDFS 


textFl 


saveA sSequenceFile 


-=----------=--=-=-=- -和 -------------------» 


图 1-4 Spatk 执 行 有 向 无 环 图 


1.4 ”弹性 分 布 式 数据 集 


本 节 将 介绍 弹性 分 布 式 数据 集 RDD。Spark 是 一 个 分 布 式 计算 框架 ， 而 RDD 是 其 对 分 布 式 内 存 数据 的 抽象 ， 可 以 认为 RDD 就 是 Spark 分 布 式 算法 的 数据 结构 ， 而 RDD 之 上 的 操作 是 Spark 分 布 式 算法 的 核 
心 原 语 ， 由 数据 结构 和 原 语 设计 上 层 算法 。Spark 最 终 会 将 算法 (RDD 上 的 一 连 串 操 作 ) 翻译 为 DAG 形 式 的 工作 流 进行 调度 ， 并 进行 分 布 式 任务 的 分 发 。 


1.5 ”本章 小 结 


本 章 首先 介绍 了 Spark 分 布 式 计算 平台 的 基本 概念 、 原 理 以 及 Spark 生 态 系统 BDAS 之 上 的 典型 组 件 。Spark 为 用 户 提供 了 系统 底层 细节 透明 、 编 程 接口 简洁 的 分 布 式 计算 平台 。Spark 具 有 内 存 计 算 、 实 
时 性 高 、 容 错 性 好 等 突出 特点 。 同 时 本 章 介绍 了 Spark 的 计算 模型 ，Spark 会 将 应 用 程序 整体 翻译 为 一 个 有 向 无 环 图 进行 调度 和 执行 。 相 比 MapReduce，Spark 提 供 了 更 加 优化 和 复杂 的 执行 流 。 读 者 还 可 
以 深入 了 解 Spark 的 运行 机 制 与 Spark 算 子 ， 这 样 能 更 加 直观 地 了 解 API 的 使 用 。Spark 提 供 了 更 加 丰富 的 函数 式 算 子 ， 这 样 就 为 Spark 上 层 组 件 的 开发 商定 了 坚实 的 基础 。 


相信 读者 已 经 想 了 解 如 何 开 发 Spark 程 序 ， 接 下 来 将 就 Spark 的 开发 环境 配置 进行 阐述 。 


第 2 章 ”Spark 开发 与 环境 配置 


用 户 进行 Spark 应 用 程序 开发 ， 一 般 在 用 户 本 地 进行 单机 开发 调试 ， 之 后 再 将 作业 提交 到 集群 生产 环境 中 运行 。 下 面 将 介绍 Spark 开 发 环境 的 配置 ， 如 何 编译 和 进行 源码 阅读 环境 的 配置 。 


用 户 可 以 在 官网 上 下 载 最 新 的 AS 软件 包 ， 网 址 为 : http://spark.apache.org/。 


2.1 _ Spark 应 用 开发 环境 配置 


Spark 的 开发 可 以 通过 Intelli 或 者 Eclipse IDE 进 行 ， 在 环境 配置 的 开始 阶段 ， 还 需要 安装 相应 的 Scala 插 件 。 


2.2 ”远程 调试 Spark 程 序 


本 地 调试 Spark 程 序 和 传统 的 调试 单机 的 Java 程 序 基 本 一 致 ， 读 者 可 以 参照 原来 的 方式 进行 调试 ， 关 于 单机 调试 本 书 暂 不 更 述 。 对 于 远程 调试 服务 器 上 的 Spark 代 码 ， 首 先 请 确保 在 服务 器 和 本 地 的 
Spark 版 本 一 致 。 需 要 按 前 文 介 绍 预先 安装 好 JDK 和 Git。 


(1) 编译 Spark 


在 服务 器 端 和 本 地 计算 机 下 载 Spark 项 目 。 


通过 下 面 的 命令 克隆 一 份 Spark 源 码 : 


git clone https:// github.com/apache/spark 


然后 针对 指定 的 Hadoop 版 本 进行 编译 : 


SPARK_ HADOOP VERSION=2.3.0 sbt/sbt assembly 


(2) 在 服务 器 端的 配置 
1) 根据 相应 的 Spark 配 置 指定 版 本 的 Hadoop， 并 启动 Hadoop。 


2) 对 编译 好 的 Spark 进 行 配 置 ， 在 conf/spark-env.sh 文 件 中 进行 如 下 配置 : 


export SPARK JAVA OPTS="-agentlib:jdwp=transport=dt_ socket, server=y, suspend=y,address=9999" 


几 


程序 上 。address 是 开放 等 待 连接 的 端 


其 中 “suspend=y” 设 置 为 需要 挂 起 的 模式 。 这 样 ， 当 启动 Spark 的 作业 时 候 程序 会 自动 挂 起 ， 等 待 本 地 的 IDE 附 加 (Attach) 到 被 调试 的 应 


(3) 启动 Spark 集 群 和 应 用 程序 


1) 启动 Spark 集 群 : 


./sbin/start-al1.sh 


2) 启动 需要 调试 的 程序 ， 以 Spark 中 自 带 的 HdfsWordCount 为 例 : 


MASTER=spark:// 10.10.1.168:7077 

./bin/run-example 
org.apache.spark.examples.streaming.HdfsWordCount 
hdfs:// localhost:9000/test/test.txt 


3) 如 图 2-7 所 示 ， 执 行 后 程序 会 挂 起 并 等 待 本 地 的 Inte 咱 进行 连接 ， 并 显示 “Listening for transport dt_socket at address: 9999” : 


[ spark-1.9.1-bin-hadoop2]S$ MASTER=spark://19.16.1.168:7977 ./b 
in/run-example org.apache.spark .exampLes .streamlng.HdfswordCcount hdfs://localhos 


t:900690/testy/test ,七 Xt | 
Spark assembly has been built with Hive, including Datanucleus jars on classpath 


Listening for transport dt socket at address: 9999 


图 2-7 远程 调试 


(4) 本 地 IDE 配 置 


1) 配置 并 连接 服务 器 端 挂 起 的 程序 。 


号 和 IP 改 为 服务 器 的 地 址 ， 同 时 选择 附加 (Attach) 方式 ， 如 图 2-8 所 示 。 


在 Inteli 中 选择 “run” 一 “edit configuration” 一 “remote” 命 令 ， 在 弹出 的 对 话 框 中 将 默认 配置 中 的 端 


Name | Unnamed 


DD ghare 口 Single nstance only 


eri] 


Command line arguments for running remote NM 


-agentliD:]dwp-tranaport-dt_socket, server~y,auepend-n,addirese”-93999 


For JDK 14x 


-Mocbug -Xrunjdwp:troansport=Ot 30cket seryerey, 300Dend-nnddre33=-99993 


For JDK 1,3 x or earlier 


-noagent -Djava.coupiLer=-SORE -Ndcbug 
-Mronldwp :tranaport"dt a0cker :Berver~y, suapend-n,adidireaa”-9999 


Settings 
Transport: ©) Socket OO Shared memory 
Debugger modes (®) Attach  ( Listen 
Host | 10.10.1.158 Port 


Search sources using madyle's cespath 


> Before munch 
一 让 个 3 


There are no tasks to run before launch 


WT Con) Lo) La 


图 2-8 ”远程 调试 设置 


2) 在 “Run/Debug Configurations” 对 话 框 中 填 入 需要 连接 的 主机 名 和 端口 号 以 及 


他 参数 ， 如 图 2-8 所 示 。 


3) 在 程序 中 设置 断 点 进行 调试 。 


通过 上 面 的 介绍 ， 用 户 可 以 了 解 如 何 进行 远程 调试 。 对 于 单机 调试 方式 则 和 日 常 开发 的 单机 程序 一 样 ， 常 用 方式 是 设 


机 调试 断 点 之 后 再 进行 调试 ， 在 这 里 并 不 再 展开 介绍 。 


2.3 _ Spark 编译 


户 可 以 通过 Spark 的 默认 构建 工具 SBT 进 行 源码 的 编译 和 打包 。 当 用 户 需 要 对 源码 进行 二 次 开发 时 ， 则 需要 对 源码 进行 增 量 编译 ， 通 过 下 面 的 方式 读者 可 以 实现 编译 和 增 量 编译 。 


(1) 克隆 Spark 源 码 


可 通过 克隆 的 方式 克隆 Spark 源 码 ， 如 图 2-9 所 示 。 


git clone https:// github.com/apache/spark 


sourcels$ git clone nttps://githnub.com/apachne/spar 
Initializeg empty Git repository ln /home/hucheng/yanjie/source/spark/.git/ 
remote: Counting objects: 119763, done. 
remote: Compressing objects: 169% (59/59)，done . 


remote: Total 119763 (delta 16), reused 64 (delta 16) 


ecelvlng objects: 199% {119763/119763), 73.29 MiB | 3.29 M1B/s, done. 
Resolving deltas: 1990% (54923/54923), done. 


图 2-9 ”git clone Spark 库 
这 样 将 会 从 github 将 Spark 源 码 下 载 到 本 地 ， 建 立 本 地 的 仓库 。 


(2) 编译 Spark 源 码 


在 Spark 项 目的 根 目录 内 执行 编译 和 打包 命令 (如 图 2-10 所 示 ) 。 


sbt/sbt assembly 


执行 过 程 中 会 解析 依赖 和 下 载 需要 的 依赖 jar 包 。 执 行 完 成 后 会 将 所 有 jar 包 打包 为 一 个 jar 包 ， 用 户 便 可 以 运行 Spark 集 群 和 示例 了 。 


(3) 增 量 编译 


在 有 些 情 况 下 ， 用 户 需要 修改 源码 ， 修 改 之 后 如 果 每 次 都 重新 下 载 jar 包 或 者 对 全 部 源码 重新 编译 一 遍 ， 会 很 浪费 时 间 ， 用 户 通过 下 面 的 增 量 编译 方法 ， 可 以 只 对 改变 的 源码 进行 编译 。 


编译 打包 一 个 assembly 的 jar 包 。 
$ sbt/sbt clean assembly 


| -- spark]$ sbt/sbt assembly 
Using /usr/java/]jdk1.7.9 51 as default JAVA HOME. 
Note, this will be overridden by -java-home if it is set. 
Attempting to fetch sbt 
尖 兴 大 各 夫 拌 汰 帮 大兴 天 夫 尖 才 玉兰 符 检 和 天 措 枯 兴 兴 者 举 失 浴 失 兴 天 入 内 委 兴 各 天 奉天 帮 兴 春天 大大 检举 夫 闪闪 各 并 得 夫 大兴 奉天 基 玫 者 兴 检举 # 符 帮 符 替 帮 夫 才 1900 .SS 
Launching sbt from sbt/sbt-Launch-6.13.5.]ar 
[info] Loading project definition from /home/' /yanjlie/source/spark/project/project 
Updating {file:/home/hucheng/yanjie/source/spark/project/project/}spark-build-build... 
Resolving org.fusesource.]Jansi#]ansi;].4 ... 
Done updating. 
Compiling 1 Scala source to /home/|l /yan]jle/source/spark/project/project/target/scalLa-2.19/sbt-6.13/cLasses . 
there were 2 deprecation warning(s); re- run with -deprecation for details 
one warning found 
Loading project definition from /home/ /.Sbt/9.13/staging/ec3aa8f39111944cc5f2/sbt-pom-reader/project 
Multiple resolvers having different access mechanism configured with same name "sbt-plugin-releases'. To avoid confli 
， Remove duplicate project resolvers (“resolvers’) or rename publishing resolver (“publishTo  ). 
] Updating {file:/home/hucheng/.sbt/9.13/staging/ec3aa8f39111944cc5f2/sbt-pom-reader/project/}sbt-pom-reader-build. 
Resolving org.fusesource.]ansi#]ansi;1.4 ... 
Done updating. 
Loading project definition from /home/l “” “~/yanjie/source/spark/project 
Updating {file:/home/hucheng/yanjie/source/spark/project/}spark-style... 
Resolving org.fusesource.]jansl##]ansl;1.4 ... 
Done updatlng. 
Updating {file:/home/| /yanjlie/source/spark/project/}plugins... 
Resolving org.fusesource.]jans1l##]ans1;1.4 .. 
downloading http://repo.scala-sbt. org/scalasbt/sbt- plugin-releases/com.ee 
d3si9gn/sbt-unidoc/scala 2.19/sbt 6.13/9.3.1/jars/sbt-unlidoc.]jar ... 
[info] [SUCCESSFUL ] com.eed3si9n#sbt-unidoc;9.3.1!sbt-unidoc.]Jar (4893ms) 
[info] Done updating. 
[info] Compiling 1 Scala source to /home/| /yanjie/source/spark/project/spa 
rk-style/target/scala-2.10/classes... 
[lnfoj Compiling 3 Scala sources to /home/ /yanjie/source/spark/project/ta 
rget/scala-2.18/sbt-0.13/classes... 
there were 1 deprecation warning(s); re-run with -deprecation for details 
one warning found 
Set current project to spark-parent (in build file:/home/t J/y¥anjie/source/spark/) 
Updating {file:/home/t . J/yanjie/source/spark/}streaming-flume-sink... 
Updating {file:/home/l ' ~-/yanjie/source/spark/}core... 
Resolving org.fusesource.]jansl#]ansl;1.4 ... 
downloading http://repol.maven.org/maven2/com/typesafe/genjJavadoc/genjavadoc-plugin 2.16.4/6.7/gen]javadoc-pLugln 2.18 
全 有 


图 2-10 ”编译 Spatk 源 码 


这 时 的 Spark 程 序 已 经 可 以 运行 。 用 户 可 以 进入 spark-shell 执 行程 序 。 


$ ./bin/spark-shell 


配置 export SPARK_PREPEND_CLASSES 参 数 为 true， 开 启 增 量 编译 模式 。 


$ export SPARK PREPEND CLASSES=true 


继续 使 用 spark-shell 中 的 程序 : 


$ ./bin/spark-shell 


这 时 用 户 可 以 对 代码 进行 修改 和 二 次 开发 : 初始 开发 Spark 应 用 ， 之 后 编译 。 


编译 Spark 源 码 : 


$ sbt/sbt compile 


继续 开发 Spark 应 用 ， 之 后 编译 。 


$ sbt/sbt compile 


解除 增 量 编译 模式 : 


$ unset SPARK PREPEND CLASSES 


返回 正常 使 用 spark-shell 的 情景 。 


$ ./bin/spark-shell # Back to normal, using Spark classes from the assembly Jar 


如 果 用 户 不 想 每 次 都 开启 一 个 新 的 SBT 会 话 ， 可 以 在 compile 命 令 前 加 上 ~。 


$ sbt/sbt ~ compile 


网 


(4) 查看 Spark 源 码 依赖 


如 果 使 用 SBT 进 行 查看 依赖 图 (如 图 2-11 所 示 ) ， 用 户 需要 运行 下 面 的 命令 : 


$ # sbt 


$ sbt/sbt dependency-tree 


如 果 使 用 Maven 进 行 


$ # Maven 


查看 依赖 图 (如 图 2-11 所 示 ) ， 用 户 需要 运行 下 面 的 命令 : 


$ mvn -DskipTests install 
$ mvn dependency:tree 
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+-0rg.codehaus .J]ackson:]acksoNn-core-as 
+-oro:oro:2.0.8 
十 -XmLenc:xmLenc:9.52 


rg.apache .mesos:mesos:9.18.1 
rg.eclipse.Jetty:Jetty-plus:8.1.14.v29131931 
org.eclipse.Jetty.orbit:]Javax.transaction:1.1.1.v201195219645 
org.ecLipse.jetty:jetty-jndi:8.1.14.v20131631 
+-org.eclipse.Jetty.orbit:Javax.mail .glassfish:1.4.1.v281965982920 
| +-org.eclipse.]Jetty.orbit:]Javax.activation:1.1.0.v2011965971233 
| 
+-org.eclipse.]Jetty:Jetty-server:8.1.14.v20131931 
+-0rg.eclipse.Jetty.orbit:]Javax.servlet:3.0.0.v201112911016 
+-Org.eclipse.Jetty:jetty-continuation:8.1.14.v20131931 
+-org.eclipse.Jetty:Jetty-http:8.1.14.v26131631 
+-org.eclipse.jetty:jJetty-10:8.1.14.v20131931 
+-Org.eclipse.Jjetty:jetty-util:8.1.14.v29131931 


org.ecLipse.jetty:jetty-webapp:8.1.14.v260131631 
+-org.ecLlipse.]jetty:]jetty-SservLet:8.1.14.v26131631 
| +-org.ecLipse.jetty:]jetty-securlity:8.1.14.v26131631 
+-0rg.ecLipse.jetty:jetty-server:8.1.14.v29131631 
+-Org.eclipse.Jetty.orbit:]Javax.servlet:3.9.0.v291112911916 
+-org.eclipse.Jetty:Jetty-continuation:8.1.14.v20131931 
+-org.ecLipse.]jetty:]jetty- http : 8.1.14.Vv29131931 
+-0rg.ecLlpse.]jetty:]jetty-10:8.1.14.v20131031 
+-0org.ecLipse.]jetty:]jetty-utlit:8.1.14.v26131631 


+-org.ecLipse.jetty:]jetty-xmLt:8.1.14.v260131631 
+-o0rg.eclLipse.jetty:]jetty-utlit:8.1.14.v29131931 


rg.eclipse.Jetty:Jetty-security:8.1.14.v29131831 
org.eclLipse.jetty:jetty-server:8.1.14.v26131931 
+-org.eclipse.Jetty.orbit:]Javax.servlet:3.0.9.v291112911916 
+-org.ecLlipse.]etty:]jetty-continuatlon:8.1.14.v261316931 
+-org.ecLipse.]jetty:jetty-http:8.1.14.v29131931 
+-0rg.ecLipse.jetty:jetty-10:8.1.14.v29131631 
+-org.ecLlpse.]jetty:]jetty-ut1llL:8.1.14.v269131631 


+-org.ecLlpse.]jetty:jetty-server:8.1.14.v29131631 

| +-org.eclLlpse.jetty.orblt:javax.servLet:3.9.9.v29111269110916 
| +-org.ecLipse.jetty:jetty-contlnuatlon:8.1.14.v29131031 

| +-org,.ecLipse,.]jetty:]jetty-http;8.1.14.v20131031 


由 于 Spark 使 用 SBT 作 为 项 目 管理 构建 工具 ，SBT 的 配置 文件 中 配置 了 依赖 的 jar 包 网 络 路 径 ， 在 编译 或 者 生成 指定 类 型 项 目 时 需要 从 网 络 下 载 jar 包 。 需 要 


Windows 操 作 系统 上 ( 


克隆 Spark 源 码 : 


图 2-11 查看 依赖 图 


git clone https:// github.com/apache/spark 


户 预 先 安装 git。 在 Linux 操 作 系 统 或 者 
户 可 以 下 载 Git Shell， 在 Git Shell 中 进行 命令 行 操作 ) 通过 “sbt/sbt gen-idea” 命 令 ， 生 成 Intellj 项 目 文件 ， 然 后 在 Intellij 1DE 中 直接 通过 “Open Project” 打 开 项 目 。 


在 所 需要 的 软件 安装 好 后 在 spark 源 代码 根 目录 下 ， 输 入 以 下 命令 生成 Intellij 项 目 : 


sbt/sbt gen-idea 


这 样 SBT 会 自动 下 载 依赖 包 和 进行 源 文件 编译 以 及 生成 Inte 几 j 所 需要 的 项 目 文件 。 


本 章 首 先 介绍 了 Spark 应 用 程序 的 开发 流程 以 及 如 何 编译 和 调试 Spark 程 序 。 用 户 可 以 选用 对 Scala 项 目 能 够 很 好 支持 的 Intellij IDE。 如 果 F 


读 环境 ， 进 行 源码 分 析 。 


通过 本 章 的 介绍 ， 读 者 可 以 进行 Spark 开 发 环境 的 搭建 ， 以 及 程序 的 开发 ， 后 续 将 介绍 Spark 的 生态 系统 BDAS。 


户 想 深 入 了 解 Spark， 以 及 诊断 问题 


， 建 议 读者 配置 好 源码 阅 


第 3 章 BDAS 简 介 


3-1 所 示 是 其 中 的 Spark 生 态 系统 。 其 中 用 内 存 分 布 式 大 数据 计算 引擎 Spark 蔡 代 原 有 
计算 框架 ，MLlib 蔡 换 Mahout 等 机 器 学 习 框架 


提 到 Spark 不 得 不 说 伯克利 大 学 AMPLab 开 发 的 BDAS (Berkeley Data Analytics Stack) 数据 分 析 的 软件 栈 ， 如 图 
的 MapReduce， 上 层 通过 Spark SQL 蔡 代 Hive 等 SQL on Hadoop 系 统 ，Spark Streaming 蔡 换 Storm 等 流 式 计算 框架 ，GraphX 蔡 换 GraphLab 等 大 规模 图 
等 ， 其 整体 框架 基于 内 存 计算 解决 了 原来 Hadoop 的 性 能 瓶颈 问题 。AmpLab 提 出 One Framework to Rule Them All 的 理念 ， 用 户 可 以 利用 Spark 一 站 式 构建 自己 的 数据 分 析 流水 线 。 


Apache Spark 


图 3-1 Spark 生态 系统 
图 数据 ，Spark Streaming 实 时 捕获 和 处 理 流 数据 ， 最 终 通 过 MLlib 将 数据 融合 ， 进 行 模型 训练 ， 底 层 各 个 系统 通 


在 一 些 数据 分 析 应 用 中 ， 用 户 可 以 使 用 Spark SQL 预 处 理 结构 化 数据 ，GraphX 预 处 理 | 
过 Spark 进 行 运算 。 


下 面 将 介绍 其 中 主要 的 项 目 。 


3.1 SQL on Spark[1] 


AMPLab 将 大 数据 分 析 负 载 分 为 三 大 类 型 : 批量 数据 处 理 、 交 互 式 查询 、 实 时 流 处 理 。 而 其 中 很 重要 的 一 环 便 是 交互 式 查询 。 大 数据 分 析 栈 中 需要 满足 用 户 ad-hoc、reporting、iterative 等 类 型 的 查询 
看 组 。 完成 这 些 重要 的 SQL 任务 的 便 是 Spark SQL 和 Shark 这 两 个 开源 分 布 式 大 数据 查询 引擎 ， 它 们 可 以 


需求 ， 也 需要 提供 SQL 接口 来 兼容 原 有 数据 库 用 户 的 使 用 习惯 ， 同 时 也 需要 SQL 能 够 进行 关系 模式 的 
理解 为 轻 量 级 Hive SQL 在 Spark 上 的 实现 ， 业 界 将 该 类 技术 统称 为 SQL on Hadoop。 

在 Spark 峰 会 2014 上 ，Databricks 宣 布 不 再 支持 Shark 的 开发 ， 全 力 以 赴 开发 Shark 的 下 一 代 技 术 Spark SQL， 同 时 Hive 社 区 也 启动 了 Hive on Spark 项 目 ， 将 Spark 作 为 Hive ( 除 MapReduce 和 Tez 之 
外 的 ) 新 执行 引擎 。 根 据 伯 克利 的 Big Data Benchmark 测 试 对 比 数据 ，Shark 的 In Memory 性 能 可 以 达到 Hive 的 100 倍 ， 即 使 是 On Disk 也 能 达到 10 倍 的 性 能 提升 ， 是 Hive 强 有 力 的 替代 解决 方案 。 而 作为 
3-2 展 示 了 Spark SQL 和 Hive on Spark 是 新 的 发 展 方向 。 


Shark 的 进化 版 本 的 Spark SQL， 在 AMPLab 最 新 的 测试 中 的 性 能 已 经 超过 Shark。 图 


Shark 


Shark 开 发 经 小 ， 
转向 Spark SQL 


Shark SQL Hive on Spark 


基于 Spark 的 新 的 帮助 现 有 Hive 用 户 
SQL 奋 测 引 靳 迁移 到 Spark 


图 3-2 Spark SQL 和 Hive on Spark 是 新 的 发 展 方向 
四 参考 文章 : 高 庚 杰 ， 陈 冠 诚 Spatk SQL: 基于 内 存 的 大 数据 分 析 引 擎 《程序 员 》2014.8 


3.2 Spark Streaming 


Spark Streaming 是 一 个 批 处 理 的 流 式 计算 框架 。 它 的 核心 执行 引擎 是 Spark， 适 合 处 理 实时 数据 与 历史 数据 混合 处 理 的 场景 ， 并 保证 容错 性 。 下 面 将 对 Spark Streaming 进 行 详细 的 介绍 。 


3.3 GraphX 


GraphX 是 Spark 中 的 一 个 重要 子 项 目 ， 它 利用 Spark 作 为 计算 引擎 ， 实 现 了 大 规模 图 计算 的 功能 ， 并 提供 了 类 似 Pregel 的 编程 接口 。GraphX 的 出 现 ， 将 Spark 生 态 系统 变 得 更 加 完善 和 丰富 ; 同时 以 其 
与 Spark 生 态 系统 其 他 组 件 很 好 的 融合 ， 以 及 强大 的 图 数据 处 理 能 力 ， 在 工业 界 得 到 了 广泛 的 应 用 。 本 章 主要 介绍 GraphX 的 架构 、 原 理 和 使 用 方式 。 


3.4 MLlib 


MLlib 是 构建 在 Spark 上 的 分 布 式 机 器 学 习 库 ， 充 分 利用 了 Spark 的 内 存 计 算 和 适合 迭代 型 计算 的 优势 ， 将 性 能 大 幅度 提升 。 同 时 由 于 Spark 算 子 丰 富 的 表现 力 ， 让 大 规模 机 器 学 习 的 算法 开发 不 再 复 


洪 


3.5 本章 小 结 


本 章 主要 介绍 了 BDAS 中 广泛 应 用 的 几 个 数据 分 析 组 件 。SQL on Spark 提 供 在 Spark 上 的 SQL 查 询 功能 。 让 用 户 可 以 基于 内 存 计算 和 SQL 进 行 大 数据 分 析 。 通 过 Spark Streaming， 用 户 可 以 构建 实时 流 
处 理应 用 ， 其 高 吞吐 量 ， 以 及 适合 历史 和 实时 数据 混合 分 析 的 特性 使 其 在 流 数据 处 理 框架 中 突出 重围 。GraphX 充 当 Spark 生 态 系统 中 图 计算 的 角色 ， 其 简洁 的 API 让 图 处 理 算法 的 书写 更 加 便捷 。 最 后 介绍 
了 MLlib 一 一 Spark 上 的 机 器 学 习 库 ， 它 充分 利用 Spark 内 存 计算 和 适合 迭代 的 特性 ， 使 分 布 式 系统 与 并 行 机 器 学 习 算 法 实现 了 完美 的 结合 。 相 信 随 着 Spark 生 态 系统 的 日 至 完善 ， 这 些 组 件 还 会 取得 长 足 发 
展 。 
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4.1 日 志 分 析 概 述 


对 着 互联 网 的 发 展 ， 在 互联 网 上 产生 了 大 量 的 Web 日 志 或 移动 应 用 日 志 ， 日 志 包含 用 户 最 重要 的 信息 ， 通 过 日 志 分 析 ， 用 户 可 以 获取 到 网 站 或 应 用 的 访问 量 ， 哪 个 网 页 访问 人 数 最 多 ， 哪 个 网 页 最 有 价 
值 、 用 户 的 特征 、 用 户 的 兴趣 等 。 


一 般 中 型 的 网 站 (10 万 的 PVI 以 上 ) ， 每 天 会 产生 1GB 以 上 Web 日 志文 件 。 大 型 或 超大 型 的 网 站 ， 可 能 每 小 时 就 会 产生 500GB~1TB 的 数据 量 。 


对 于 日 志 的 这 种 规模 的 数据 ， 通 过 Spark 进 行 大 规模 日 志 分 析 与 日 志 处 理 ， 能 够 达到 很 好 的 效果 。 


Web 日 志 由 Web 服 务 器 产生 ， 现 在 互联 网 公司 使 用 的 主流 的 服务 器 可 能 是 Nginx、Apache、Tomcat 等 。 从 Web 日 志 中 ， 我 们 可 以 获取 网 站 每 类 页 面 的 PV 值 (页 面 浏览 ) 、UV (独立 IP 数 ) 。 更 复杂 
一 些 的 ， 可 以 计算 得 出 用 户 所 检索 的 关键 词 排行 榜 、 用 户 停留 时 间 最 高 的 页 面 等 。 更 为 复杂 的 ， 构 建 广告 点 击 模型 、 分 析 用 户 行为 特征 等 。 


1. 日 志 格式 


目前 常见 的 Web 日 志 格式 主要 由 两 类 : 一 种 日 志 格式 是 Apache 的 NCSA 日 志 格 式 ， 另 一 种 日 志 格式 是 1S 的 W3C 日 志 格 式 。 


下 面 以 Nginx 日 志 格 式 为 例 进行 讲解 。 


Nginx 日 志 示例 格式 : 


222.68.172.111 - - [18/Sep/2013:06:49:57 +0000] 
"GET /images/my.jpg HTTP/1.1" 200 19939 
"http://waw.angularjs.cn/AOOn" "Mozilla/5.0 (Windows NT 6.1) ApplewWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36" 


以 下 是 本 例 中 涉及 的 一 些 要 素 。 
“ temote_addr: 记录 客户 端的 IP 地 址 。 本 例 为 222.68.172.111。 
“ remote_user; 记录 客户 端 用 户 名 称 ， 本 例 -- 表 示 为 空 。 
“ time_local: 记录 访问 时 间 与 时 区 ， 本 例 为 [18/Sep/2013: 06: 49: 57+0000]。 
“ request; 记录 请 求 的 URL 与 HTTP 协 议 ， 本 例 为 GET/images/my.jpg HTTP/1.1。 
“status: 记录 请 求 状态 ， 成 功 是 200。 
“ body_bytes_sent: 记录 发 送 给 客户 端 文件 主体 内 容 大 小 ， 本 例 中 为 19939。 
“ http_referer: 用 来 记录 从 哪个 页 面 链接 访问 过 来 的 ，http:/ /www.angulatjs.cn/A00n。 
“http_user_ agent; 记录 客户 浏览 器 的 相关 信息 ， 本 例 中 为 Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36。 


注意 ”如果 用 户 想 要 更 多 的 信息 ， 则 要 用 其 他 手段 去 获取 ， 通 过 ]JS 代 码 单独 发 送 请 求 ， 并 使 用 cookies 记 录用 户 的 访问 信息 


通过 利用 这 些 日 志 信息 ， 我 们 可 以 深入 分 析 用 户 行为 或 网 站 状况 了 。 


2. 传 统 单机 日 志 数 据 分 析 示 例 


当 数 据 量 较 小 (10MB，100MB，10GB) ， 单 机 处 理 能 够 解决 ， 可 以 通过 各 种 Unix/Linux 命 令 或 者 工具 ，awk、grep、sort、join 等 都 是 日 志 分 析 的 利器 ， 再 配合 Perl|、Python、 正 则 表达 式 ， 基 本 就 
可 以 解决 常见 日 志 分 析 的 问题 。 


(1) Linux Shell 进 行 单机 日 志 分 析 示 例 


例如 ， 想 从 上 面 提 到 的 nginx 日 志 中 得 到 访问 量 最 高 的 前 10 个 IP， 通 过 以 下 Shell 进 行 分 析 : 


cat access.1og.10 | we '{a[$1]++} END {for(b in a) Print b"\t"a[b]}' 
| sort -k2 -r | head -n 
i163.177.71,12 972 
101.226.68.137 972 
183.195.232.138 971 
50.116.27.194 97 
14.17.29.86 96 
61.135.216.104 94 
61.135.216.105 91 
2 190.41 9 
9.39.192.108 9 
22 181.51.212 9 


(2) Python 进 行 单机 日 志 分 析 示 例 


洽 查 Nginx 的 日 志文 件 ， 统 计 基 于 每 个 独立 IP 地 址 的 点 击 率 ， 代 码 如 下 : 


#!/usr/bin/env Python#coding:utf8 
import re 
import sys 
contents = sys.argv[l]def NginxIpHite (logfile path): 
#IP: 4 个 字符 串 ， 每 个 字符 串 为 1~3 个 数字 ， 由 点 连接 
ipagd = Tr oin(lr' dtlr3}']*4) 
re ip = re.compile (ipadd) 
iphitlisting = {} 
for line in open(contents) : 
match = re ip.match (line) 
if match: 
ip = match.group( ) 
# 如 果 IP 存 在 增加 1， 和 否则 设置 点 击 率 为 1 
iphitlisting[ip] = iphitlisting.get (ip, 0) + 1 
print iphitlisting 
NginxIpHite (contents) 


运行 并 打印 结果 如 下 : 


[root@chlinux 06]# ./nginx ip.py access _ 20140610.1og 
{83.3.121:94"5 ly "182.118 20.184": 2 "L182.119.20:185"s 1; "L190.52.120.38": 1 "182.118.20.1871's 1; 7 2022108251.21 7 2r 7811355190510173 2; "103.22.181.241'5 1; 10L.226 


此 脚本 返回 的 是 一 个 Key-Value 映 射 ， 包 含 访问 Nginx 服 务 器 的 各 个 IP 的 点 击 数 。 


(3) 大 规模 分 布 式 日 志 分 析 情 况 


户 可 以 通过 这 个 示例 再 进行 深入 拓展 ， 进 行 更 丰 


富 的 日 志 信息 和 知识 的 获取 。 


当 数 据 量 每 天 以 10GB、100GB 增 长 的 时 候 ， 单 机 处 理 能 力 已 经 不 能 满足 需求 。 此 时 就 需要 增加 系统 的 扩展 性 ， 用 大 数据 分 析 和 并 行 计算 来 解决 。 在 Spark 出 现 之 前 ， 海 量 数据 存储 和 海量 日 志 分 析 都 是 
基于 Hadoop、Hive 等 数据 分 析 系统 的 。Spark 的 出 现 ， 使 得 全 栈 数 据 分 析 更 加 容易 。 并 且 ，Sspark 非 常 适 合 构建 多 范式 日 志 分 析 流水 线 。 我 们 将 介绍 如 何 使 用 Spark 构 建 日 志 分 析 流 水 线 。 
[1] Page View， 页 面 访问 量 。 
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4.1 日 志 分 析 概 述 

参 着 互联 网 的 发 展 ， 在 互联 网 上 产生 了 大 量 的 Web 日 志 或 移动 应 用 日 志 ， 日 志 包含 用 户 最 重要 的 信息 ， 通 过 日 志 分 析 ， 用 户 可 以 获取 到 网 站 或 应 用 的 访问 量 ， 哪 个 网 页 访问 人 数 最 多 ， 哪 个 网 页 最 有 价 
值 、 用 户 的 特征 、 的 兴 

一 般 中 型 的 网 站 (10 万 的 PVII 以 上 ) ， 每 天 会 产生 1GB 以 上 Web 日 志文 件 。 大 型 或 超大 型 的 网 站 ， 可 能 每 小 时 就 会 产生 500GB~ 1TB 的 数据 量 。 

对 于 日 志 的 这 种 规模 的 数据 ， 通 过 spark 进 行 大 规模 日 志 分 析 与 日 志 处 理 ， 能 够 达到 很 好 的 效果 。 

Web 日 志 由 Web 服 务 器 产生 ， 现 在 互联 网 公司 使 用 的 主流 的 服务 器 可 能 是 Nginx、Apache、Tomcat 等 。 从 Web 日 志 中 ， 我 们 可 以 获取 网 站 每 类 页 面 的 PV 值 (页 面 浏览 ) 、UV (独立 IP 数 ) 。 更 复杂 
一 些 的 ， 可 以 计算 得 出 用 户 所 检索 的 关键 词 排行 榜 、 用 户 停留 时 间 最 高 的 页 面 等 。 更 为 复杂 的 ， 构 建 广告 点 击 模型 、 分 析 用 户 行为 特征 等 。 

1. 日 志 格式 

目前 常见 的 Web 日 志 格 式 主 要 由 两 类 : 一 种 日 志 格式 是 Apache 的 NCSA 日 志 格式 ， 另 一 种 日 志 格式 是 IIS 的 W3C 日 志 格式 。 

下 面 以 Nginx 日 志 格式 为 例 进行 讲解 。 

Nginx 日 志 示例 格式 : 

222.68.172.111 - -~ [18/Sep/2013:06:49: 3 +0000] 


"GET /images/my.jpg HTTP/1.1" 200 1993 


"http://www.angularjs.cn/AOOn" 


有 0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36" 


以 下 是 本 例 中 涉及 的 一 些 要 素 。 


“ temote_addr: 记录 客户 端的 IP 地 址 。 本 例 为 222.68.172.111。 


“ temote_user: 记录 客户 端 用 户 名 称 ， 本 例 -- 表 示 为 空 。 


* time_local: 


* request: 


“ status: 


“ body_b 


* http_referer: 
* http_user_agent: 


注意 如 果 用 户 想 要 更 多 的 信息 ， 则 要 用 其 他 手段 去 获取 ， 


记录 请 求 状态 ， 成 功 是 200。 


ytes_sent: 


用 来 记录 从 哪个 页 面 链接 访问 过 


记录 访问 时 间 与 时 区 ， 本 例 为 [18/Sep/2013: 06: 


49: 57+0000]。 


记录 请 求 的 URL 与 HTTP 协 议 ， 本 例 为 GET/images/my.jpg HTTP/1.1。 


记录 发 送 给 客户 端 文件 主体 内 容 大 小 ， 本 例 中 为 19939。 


来 的 ， 


这 些 日 志 信息 ， 我 们 可 以 深入 分 析 


通过 利 


2. 传 统 单机 日 志 数 据 分 析 示例 


当 数 据 量 较 小 (10MB， 
可 以 解决 常见 日 


(1) Lin 


例如 ， 想 从 上 面 提 到 的 nginx 


cat access.1og.10 | awk '{a 
| sort -k2 -r 
163.177.71.12 
101.226.68.137 


100MB， 
志 分 析 的 问题 。 


10GB) 


ux Shell 进 行 单机 日 志 分 析 示 例 


户 行为 或 网 站 状况 了 。 


， 单 机 处 理 能 够 解决 ， 可 以 通过 各 种 Unix/Linux 命 令 或 者 工 : 


志 中 得 到 访问 


| head -n 10 


83:195.232.138. 971 
50.116.27.194 97 
14.17.29.86 96 
61.135.216.104 94 
L135.216,105 “91 
61.186.190.41 9 
59.39,.192.108 9 


220.181.51.212 9 


(2) Python 进行 


志 分 析 示 例 


单机 


最 高 的 前 10 个 IP， 


[$1]++} END {for(b in a) print b"\t"a[b]}"' 


http:/ /www.angularjs.cn/ AOOn。 


通过 以 下 Shell 进 行 分 析 : 


通过 JS 代码 单独 发 送 请 求 ， 并 使 用 cookies 记 录用 户 的 访问 信息 。 


记录 客户 浏览 器 的 相关 信息 ， 本 例 中 为 Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36。 


，awk、grep、sort、join 等 都 是 日 志 分 析 的 利器 ， 再 配合 Perl、 


Python、 正 则 表达 式 ， 基 本 就 


检查 Nginx 的 日 志文 件 ， 统 计 基于 每 个 独立 IP 地 址 的 点 击 率 ， 代 码 如 下 : 


#!/usr/bin/env Python#coding:utf8 
import re 
import sys 
contents = sys.argv[l]def NginxIpHite (logfile path): 
#IP: 4 个 字符 囊 ， 每 个 字符 串 为 1~3 个 数字 ， 由 点 连接 
ipadd = r'\.'.join([r'\d{1,3}']*4) 
re ip = re.compile (ipadd) 
iphitlisting = {} 
for line in open(contents): 
match = re ip.match (line) 
if match: 
ip = match.group( ) 
# 如 果 IP 存 在 增加 1， 和 否则 设置 点 击 率 为 1 
iphitlisting[ip] = iphitlisting.get (ip, 0) + 1 
print iphitlisting 
NginxIpHite (contents) 


运行 并 打印 结果 如 下 : 


[root@chlinux 06]# ./nginx ip.py access 20140610.1og 
4183.3.121.84"5 1; "182.118.20.184'; 2; '182.119.20,.185': 1; "190.52.120.38"': 1 "182.118.20.1871'5 1 2024108.251.214’; 2; "61,135,.190.101": 2, ‘103522.181.2471'> 1 LQL:226. 


此 脚本 返回 的 是 一 个 Key-Value 了 映射 ， 包 含 访问 Nginx 服 务 器 的 各 个 IP 的 点 击 数 。 用 户 可 以 通过 这 个 示例 再 进行 深入 拓展 ， 进 行 更 丰富 的 日 志 信息 和 知识 的 获取 。 


(3) 大 规模 分 布 式 日 志 分 析 情 况 


当 数 据 量 每 天 以 10GB、100GB 增 长 的 时 候 ， 单 机 处 理 能 力 已 经 不 能 满足 需求 。 此 时 就 需要 增加 系统 的 扩展 性 ， 用 大 数据 分 析 和 并 行 计 算 来 解决 。 在 Spark 出 现 之 前 ， 海 量 数据 存储 和 海量 日 志 分 析 都 是 
基于 Hadoop、Hive 等 数据 分 析 系统 的 。Spark 的 出 现 ， 使 得 全 栈 数 据 分 析 更 加 容易 。 并 且 ，Spark 非 常 适 合 构建 多 范式 日 志 分 析 流 水 线 。 我 们 将 介绍 如 何 使 用 Spark 构 建 日 志 分 析 流 水 线 。 


[1] Page View， 页 面 访问 量 。 


4.2 日 志 分 析 指 标 


下 面 将 介绍 常用 网 站 的 运营 数据 分 析 指 标 。 在 数据 越 来 越 重 要 的 趋势 下 ， 数 据 化 运营 已 经 提 上 互联 网 公司 的 日 程 ， 如 果 监 控 网 站 或 应 用 的 状况 时 发 现 瓶 颈 问题 ， 我 们 需要 针对 网 站 或 应 用 相关 指标 进行 
统计 和 分 析 得 出 的 。 随 着 移动 互联 网 的 发 展 ， 越 来 越 多 的 移动 数据 分 析 公司 与 工具 也 不 断 涌 现 ， 其 中 代表 性 的 为 友 盟 、Talking Data 等 ， 为 公司 提供 数据 化 运营 支持 。 


网 站 运行 日 志 分 析 常 用 指标 如 下 : 


“PV (Page View) : 网 站 页 面 访问 数 ， 也 称 作 网 站 流量 。 
“UV (Unique Visitor) : 页 面 IP 的 访问 量 统 计 ， 访问 用 户 数 ， 即 独立 IP。 
“ PVPU (Page View Per User) : 平均 每 位 用 户 访问 页 面 数 。 


: 漏斗 模型 与 转化 率 : 漏斗 模型 指 的 是 多 个 不 同 的 事件 按照 一 定 依赖 顺序 依次 触发 的 流程 中 的 转化 模型 。 用 户 通常 会 对 应 用 中 的 一 些 关键 路 径 进行 分 析 。 比 如 注册 流程 、 购 物流 程 、 交 易 流 程 等 。 以 电 
商 应 用 的 购物 流程 为 例 : 


“1 浏览 商品 页 一 2 放 入 购物 车 一 3 生成 订单 一 4 支付 订单 一 5 完成 交易 


:我们 可 以 根据 这 些 关键 路 径 来 计算 每 一 步 的 转化 率 。 转 化 率 指 的 是 完成 当前 事件 的 用 户 中 触发 下 一 个 依赖 事件 的 用 户 所 占 比 例 。 
“ 留存 率 : 用 户 在 某 段 时 间 内 开始 使 用 应 用 ， 经 过 一 段 时 间 后 ， 仍 然 继 续 使 用 这 个 应 用 的 用 户 被 认 作 是 留存 。 这 部 分 用 户 占 开始 新 增 用 户 的 比例 即 是 留存 率 。 


: 用户 属性 : 用 户 的 基本 属性 和 行为 特征 ， 将 用 户 打 标签 ， 帮 助 产品 进一步 的 营销 与 推荐 。 


最 终 希望 通过 一 个 仪表 盘 展示 出 整个 网 站 的 统计 指标 信息 ， 如 图 4-1 所 示 。 
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图 4-1 日 志 统计 效果 图 


4.3 Lamda 架 构 


日 志 分 析 中 既 有 离线 大 规模 分 析 的 需求 ， 又 有 实时 性 的 需求 ， 这 就 可 以 通过 采用 Lamda 架 构 构建 日 志 分 析 流 水 线 。 


1.Lamda 架 构 简 介 


Lambda 架 构 的 目的 是 为 大 数据 分 析 应 用 程序 提供 一 个 低 响 应 延迟 的 组 合 数 据 传输 环境 。 


Lambda 系 统 架 构 定义 了 一 套 明确 的 架构 原则 ， 它 为 建立 一 套 强大 的 和 可 扩展 的 数据 系统 定义 了 架构 范式 。 在 Lamda 架 构 中 ， 被 读 取 的 数据 是 不 可 变 的 ， 在 并 行 处 理 过 程 中 数据 会 依次 进入 流 处 理 系统 
和 批 处 理 系统 ， 同 时 进行 实时 处 理 和 离线 数据 分 析 。 在 查询 时 ， 当 这 两 者 都 返回 结果 后 ， 才 算是 完成 一 次 完整 的 查询 。 从 逻辑 上 看 ， 传 输 过 程 发 生 了 两 次 ， 一 次 是 在 批 处 理 中 ， 一 次 是 在 流 处 理 中 。 


Lamda 架 构 并 不 限定 其 中 的 具体 系统 ， 要 根据 实际 情况 进行 调整 优化 。 大 数据 的 系统 选 型 具体 可 以 有 很 多 的 组 合 变 化 。 例 如 可 以 将 图 4-2 中 的 Kafka、Storm、Hadoop 等 换 成 其 他 类 似 的 系统 ， 例 如 
Spark Streaming、Spark 等 ， 惯 常 的 做 法 是 使 用 两 个 数据 库 来 存储 数据 输出 表 ， 一 个 存储 实时 表 ， 响 应 实时 查询 需求 ， 另 外 一 个 存储 批 处 理 表 ， 返 回 离线 计算 结果 。 
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图 4-2 Lamda 数 据 分 析 架 构 


它 是 由 三 层 组 成 : 批 处 理 层 、 服 务 层 和 速度 层 。 


@@ 批 处 理 层 : Hadoop、Spark、Tez 等 都 可 以 作为 批 处 理 层 的 处 理工 具 ，HDFS、HBase 等 都 可 以 作为 数据 持久 化 系统 。 


@ 服 务 层 : 用 于 加 载 和 实现 数据 库 中 的 批 处 理 视图 ， 以 便 用 户 能 够 查询 ， 不 一 定 需要 随机 写 ， 但 是 支持 批 更 新 和 随机 读 ， 例 如 采用 ElephantDB、Voldemort。 


@ 快 速 处 理 层 : 主要 处 理 新 数据 和 服务 层 更 新 造成 的 高 延迟 补偿 ， 利 用 流 处 理 系统 (如 Storm、S4、Spark Streaming) 和 随机 读 写 数据 存储 库 来 计算 实时 视 
和 转换 实时 视图 为 批 处 理 视图 。 


(HBase) 。 批 处 理 和 服务 层 定期 处 理 


[ 


为 了 获得 一 个 完整 结果 ， 批 处 理 和 实时 视图 都 必须 被 同时 查询 和 融合 (实时 代表 新 数据 ) 。 


下 面 借鉴 Lamda 架 构 ， 设 计 整 个 数据 分 析 流 水 线 架构 ， 如 图 4-3 所 示 。 


Flume 


Spark Streaming 


图 4-3 


本 例 中 实时 日 志 分 析 流水 线 大 致 按 以 下 步骤 操作 。 


@ 数 据 采集 : 采用 Flume NG 进行 数据 采集 。 


@ 数 据 汇总 与 转发 : 通过 Flume 将 数据 转发 汇总 到 实时 消息 系统 Kafka。 


@ 数 据 处 理 : 采用 Spark Streaming 进 行 实时 数据 处 理 。 


@ 结 果 呈 现 : 采用 Flask 作 为 可 视 化 呈现 工具 进行 结果 呈现 。 


离线 日 志 分 析 流 水 线 大 致 按 以 下 步骤 操作 。 


@ 数 据 存储 : 通过 Flume 将 数据 转 储 到 HDFS。 


通过 Spark SQL 进行 数据 预 处 理 。 


: 结果 汇总 存储 到 MySQL 最 后 通过 Flask 进 行 结果 呈现 。 


4.4 构建 日 志 分 析 数 据 流水 线 


Ha 


日 志 分 析 流 水 线 整 体 架 构图 


后 续 的 章节 将 介绍 日 志 数据 采集 、 日 志 数 据 汇总 、 日 志 实时 分 析 、 日 志 离线 分 析 及 可 视 化， 来 构建 数据 分 析 流 水 线 。 


4.5 “本章 小 结 


本 章 首 先 介绍 了 Web 日 志 分 析 ， 对 常用 的 日 


doop (HDFS) 


“i 
mSeriesl mSeries? NSeriesj 


志 分 析 架 构 设计 为 Lamda 架 构 。 后 续 对 整个 日 志 分 析 流 水 线 


的 架构 进行 介绍 ， 读 者 可 以 根据 流水 线 中 的 各 个 环节 进行 其 他 系统 的 拓展 或 者 替换 ， 构 建 自身 生产 环境 的 日 志 分 析 应 
辑 ， 对 现实 场景 i 


读者 通过 本 章 可 以 初步 认识 和 理解 日 志 分 析 ， 其 他 基于 Spark 的 应 
上 如 何 进 行 Spark 数 据 分 析 进 行 介绍 。 


将 在 后 续 的 章节 进行 介绍 。 


。 在 本 章 的 后 


随 着 云 计 算 如 火 如 茶 的 发 展 ， 越 来 越 多 的 公司 选择 将 应 


部 分 ， 更 加 详细 地 介绍 了 日 志 分 析 的 各 个 环节 以 及 抽象 出 的 处 理 逻 


行 适当 简化 ， 抽 取出 共性 ， 不 同 的 生产 环境 产生 不 同 格式 的 日 志 以 及 需要 不 同 的 运营 分 析 指标 ， 所 以 需要 定制 化 的 日 志 处 理 。 


构建 于 云 平台 之 上 ， 接 下 来 的 章节 将 在 云 平台 


第 5 章 ”基于 云 平 台 和 用 户 日 志 的 推荐 系统 


个 性 化 推荐 是 根据 


兴趣 特点 和 购买 行为 ， 向 


推荐 感 兴趣 的 信息 和 商品 。 随 着 电子 商务 、 在 线 视频 、 音 乐 等 规模 的 不 断 扩大 ， 物 品 个 数 和 种 类 快速 增长 ， 顾 客 需要 花费 大 量 的 时 间 才 能 找到 自 


己 要 买 的 物品 。 这 种 浏览 大 量 无 关 的 信息 和 物品 过 程 无 疑 会 导致 信息 过 载 问题 ， 使 消费 者 不 断 流失 。 为 了 解决 这 些 问题 ， 个 性 化 推荐 系统 应 运 而 生 。 


本 章 将 通过 在 微软 云 平台 Azure 之 上 构建 整个 推荐 数据 分 析 流水 线 ， 帮 助 用 户 了 解 整个 推荐 系统 的 架构 、 原 理 。 


5.1 ”Azure 云 平台 简介 


随 着 云 平台 的 发 展 ， 越 来 越 多 的 公司 选择 将 应 用 在 云端 部 署 ， 使 应 用 在 云端 产生 越 来 越 多 的 数据 ， 如 何在 云 平台 进行 数据 分 析 越 来 越 重要 。 


Aamazon， 微 软 ，Google 等 公司 的 公有 云 发 展 势头 迅猛 。 本 章 基 于 Windows Azure 进 行 介绍 ，Windows Azure 是 微软 的 公有 云 平台 (1]， 平 台 上 提供 存储 、 计 算 、 分 析 等 服务 组 件 。 


由 于 本 章 案例 需要 采用 Azure 上 的 系统 或 者 组 件 ， 所 以 首先 对 案例 中 涉及 的 Azure 组 件 或 系统 进行 简要 介绍 。 


Azure 向 用 户 提供 全 套 的 云 服务 解决 方案 ， 如 图 5-1 所 示 ， 本 实例 主要 涉及 使 用 其 中 Execution Model (执行 模型 ) 中 的 网 站 模型 ，Data Management (数据 管理 ) 中 的 Azure 
Table，Messaging (消息 服务 ) 中 的 Azure Queues 等 。 
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5-1 Azure 服 务 概览 


[1 Windows Azure 简 介 : http://www.windowsazure.cn/zh-cn/manage/linux/fundamentals/intro-to-windows-azure/。 


5.2 ”系统 架构 


通过 图 5-5， 用 户 可 以 了 解 到 推荐 系统 在 整个 数据 分 析 产 品 中 所 处 位 置 。 推 荐 系统 是 需要 搭配 用 户 日 志 的 收集 与 存储 的 系统 协调 运行 的 。 整 个 系统 运行 架构 中 ， 用 户 通 过 访问 应 用 ,应 


记录 


户 的 访问 


行为 ， 并 通过 日 志 系统 将 用 户 日 志 进行 收集 与 预 处 理 ， 最 后 将 日 志 存储 在 持久 化 存储 中 。 之 后 推荐 系统 通过 读 取 用 户 行为 日 志 ， 提 取 特 征 ， 针 对 用 户 进行 个 性 化 的 商品 推荐 。 


= 


图 5-5 数据 产品 架构 


图 5-6 ”Spatk 日 志 收集 与 处 理 模块 


通过 图 5-6 可 以 看 到 整个 实时 日 志 收 集 与 处 理 模块 所 包含 的 各 个 模块 ， 以 及 各 个 模块 所 使 用 的 技术 。 现 有 的 数据 分 析 流 水 线 包 含 以 下 几 个 部 分 。 
(1) 数据 收集 聚合 
图 5-7 展 示 数 据 收集 与 聚合 模块 ， 以 及 各 个 部 分 的 技术 构成 。 


Spark Streaming 从 Azure Queue 收 集 数据 : 通过 自 定义 Spark Streaming 的 接收 器 ， 源 源 不 断 消费 Azure Queue 中 的 流 式 数据 。 


图 5-7 数据 收集 与 聚合 


(2) 数据 处 理 
Spark Streaming 处 理 分 析 用 户 行为 日 志 数 据 。 例 如 ， 可 以 通过 实时 聚集 ， 统 计 报 表现 有 的 应 用 的 运营 信息 ， 也 可 以 通过 离线 训练 的 模型 ， 对 实时 数据 进行 预测 和 标注 等 。 
(3) 结果 输出 
“ Azure Blob (HDFS) : 预 处 理 后 的 日 志 输 出 到 Azure Blob。 
“ Azure Queue: 接收 的 实时 数据 或 者 需要 继续 下 游 流 水 线 处 理 的 中 间 结 果 存 储 到 Azure Queue， 下 游 由 Spark Streaming 进 行进 一 步 的 处 理 和 分 析 。 


“ Azure Table: 统计 度量 的 数据 结果 ， 这 些 结果 为 后 续 进行 数据 报表 或 者 可 视 化 工具 所 使 用 。 


5.3 ”构建 Nodejs 应 用 


用 户 的 行为 日 志 主要 来 自 于 用 户 访问 的 Web 应 用 ， 首 先 构 建 一 个 Nodejs 应 用 ， 这 样 就 能 够 通过 应 用 支撑 业务 ， 获 取 到 用 户 行为 日 志 ， 更 好 地 调整 应 用 支撑 业务 。 


5.4 数据 收集 与 预 处 理 


本 章 构 建 的 推荐 系统 的 日 志 数 据 就 是 来 源 于 用 户 在 访问 用 户 时 的 点 击 日 志和 其 他 信息 。 如 何 获取 用 户 的 点 击 日 志 ? 获取 的 点 击 日 志 后 端 如 何 存储 和 处 理 ? 下 面 的 章节 将 进行 介绍 。 


5.5 ”Spark Streaming 实 时 分 析 用 户 日 志 


5.5.1 构建 Azure Queue 的 Spark Streaming Receiver 


HDIlnsight 是 Azure 上 的 大 数据 服务 ， 用 户 可 以 通过 部 署 Spark 在 HDlnsight 之 上 进行 数据 的 读 取 与 处 理 。 用 户 可 以 参照 文档 : 


https://hdiconfigactions.blob.core.windows.net/sparkconfigactionv03/spark-installer-v03.ps1 
构建 Azure 之 上 的 Spark 服 务 。 

: 继承 Receiver 类 ， 自 定义 针对 Azure Queue 的 Spark Stteaming 数 据 接收 器 类 。 

“ 创建 onStart 方 法 ， 添 加 启动 前 预 处 理 逻 辑 。 

“ 创建 onStop 方 法 ， 添 加 停止 后 清理 逻辑 。 


“ 创建 receive 方 法 ， 进 行 接收 Azure Queue 数 据 并 转化 为 Spark Streaming 可 以 处 理 的 数据 格式 。 


以 下 是 具体 实现 : 


// 定义 CustomReceiver 类 ， 并 继承 Receiver 类 ， 这 样 就 能 够 实现 自 定义 的 接收 器 并 被 Spark 
// Streaming 插 件 化 使 用 了 
Class CustomReceiver (StorageConnectionString: String, queueName: String, threadCount: Int) 
extends Receiver[String] (StorageLevel .MEMORY AND DISK 2) with Logging { 
// 添加 接收 器 启动 时 的 处 理 逻 辑 
def onstart() { 
// 创建 线程 接收 连接 的 数据 
new Thread(" Receiver") { 
override def run() { receive() } 
}.start () 


上 
// 可 以 添加 接收 器 停止 后 的 处 理 逻 辑 
def onStop () { 


} 
// 创建 接收 器 
Private def receive() { 
// 配置 链接 字符 串 和 账号 
Val storageAccount = CloudStorageAccount 
.Parse (storageConnectionstring) 
// 创建 Azure Queue 连 接客 户 端 
Val queueClient = storageAccount.createCloudQueueClient () 
Val queue = queueClient .getQueueReference (queueName) 
// 循环 读 取 Azure Queue 中 数据 并 转换 为 Spark Streaming 可 以 处 理 的 格式 
while (!isStopped()) { 


try { 
val tasks: Seq[Future[Unit]] = for (i <- 1 to threadCount) Yield Future{ 
Val messages = queue.retrieveMessages (32) 
if (messages != null) { 


for (queueMessage <- messages) { 
//_ 将 读 取 的 消息 转化 为 String 类 型 
val queueMessageString =queueMessage.getMessageContentAsString 
store (queueMessageString) 
} 
} 


E 
// 多 线程 并 行 读 取 
Val aggregated: Future[Seq[Unit]] = Future.sequence (tasks) 
Await.result (aggregated, 4.seconds) 
} 
catch { 
Case e: Throwable => 
restart ("crashed due to internal error, restarting receiverhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15547/0EBPS/Text/... 
. 
} 


通过 以 上 代码 逻辑 ， 系 统 已 经 可 以 实时 接收 来 自 Azure Queue 的 实时 用 户 行为 日 志 数据 了 。 


5.6 ”MLlib 离 线 训 


练 模型 


MLIib 是 Spark 对 常用 的 机 器 学 习 算法 的 实现 库 ， 同 时 包括 相关 的 测试 和 数据 生成 器 。MLIib 目 前 支持 4 种 常见 的 机 器 学 习 问 题 : 二 元 分 类 、 回 归 、 聚 类 以 及 协同 过 滤 ， 同 时 也 包括 一 个 底层 的 梯度 下 降 优 
化 基础 算法 。 本 节 将 会 简要 介绍 通过 MLlib 进 行 产品 推荐 。 


5.7 本章 小 结 


本 章 首先 介绍 了 Azure 云 平台 ， 对 Azure 之 上 的 云 服务 进行 了 概要 介绍 ， 读 者 可 以 尝试 在 云 平台 上 构建 自己 的 应 用 。 之 后 又 介绍 了 整个 推荐 系统 的 架构 ， 可 以 对 整个 系统 有 一 个 全 面 的 了 解 。 后 续 对 整个 
应 用 的 各 个 模块 进行 更 为 详细 的 介绍 ， 通 过 Node.js 构 建 Web 应 用 ， 在 Web 应 用 中 产生 日 志 ， 后 台 通 过 日 志 收 集 和 实时 的 Spark Streaming 进 行 实时 分 析 ， 最 终 对 离线 数据 进行 推荐 。 


读者 通过 本 章 可 以 初步 认识 云 平台 构建 数据 分 析 应 用 的 主要 流程 和 优势 ， 随 着 云 计算 的 发 展 ， 相 信 未 来 会 有 越 来 越 多 的 应 用 和 数据 分 析 产 品 在 云 平台 落地 。 


Twitter 是 应 用 最 为 广泛 的 社交 媒体 类 应 用 ， 由 于 其 实时 性 ， 相 比 于 传统 媒体 ， 有 大 的 优势 播报 突 发 事件 以 及 群体 情感 ， 通 过 对 Twitter 进行 分 析 有 很 好 的 应 用 意义 ， 下 一 章节 将 对 如 何 使 用 Spark 进 行 推 
特 分 析 进 行 详细 的 介绍 。 


第 6 章 Twitter 情感 分 析 


本 章 将 通过 Spark 对 Twitter 进行 分 析 ， 分 析 热 点 Twitter 并 对 Twitter 进行 情感 分 析 。 


6.1 系统 架构 


Twitter 的 系统 架构 ， 如 图 6-1 所 示 。 


图 6-1 系统 架构 图 


@Spark Streaming Twitter 收集 与 分 析 模块 : 通过 Twitter 和 Spark Streaming 的 AP1， 实 时 抓 取 Twitter 数据 。 对 Twitter 数据 进行 实时 预 处 理 。 通 过 Spark Streaming 进 行 实时 聚 类 和 热点 Twitter 分 
析 。 


@Cassandra 持 久 化 存储 模块 : Spark Streaming 同 时 将 实时 获取 和 预 处 理 后 的 Twitter 数据 存储 到 后 端的 分 布 式 NoSQL 存 储 引擎 Cassandra 中 ， 为 后 续 Spark 进 行 更 深入 的 分 析 做 准备 。 
@Spark 分 析 模 块 : Spark 读 取 Cassandra 中 的 数据 ， 将 数据 进行 情感 分 析 。 


Q@MySQL 结 果 存 储 模块 : 实时 分 析 的 Spark Streaming 将 最 终结 果 持 久 化 存储 到 MySQL 中 ， 同 时 Spark 也 将 情感 分 析 的 数据 存储 到 MySQL 中 ， 这 样 将 数据 可 视 化、 结果 查询 与 后 端的 数据 分 析 系统 进 
行 解 厢 ， 使 得 系统 具有 更 好 的 可 扩展 性 。 


6.2 Twitter 数 据 收集 


在 互联 网 应 用 中 ， 流 数据 处 理 是 一 种 常用 的 应 用 模式 ， 需 要 在 不 同 粒度 上 对 不 同 数据 进行 统计 ， 保 证 实时 性 的 同时 ， 又 涉及 聚合 (aggregation) 、 去 重 (distinct) 、 连 接 (join) 等 较为 复杂 的 统计 
需求 1。 如 果 使 用 MapReduce 框 架 ， 虽 然 可 以 容易 地 实现 较为 复杂 的 统计 需求 ， 但 实时 性 却 无 法 得 到 保证 ， 反 之 ， 若 是 采用 Storm 这 样 的 流 式 框架 ， 实 时 性 虽 可 以 得 到 保证 ， 但 需求 的 实现 复杂 度 也 大 大 提 
高 了 。Spark Streaming 在 实时 性 与 复杂 统计 需求 之 间 找 到 了 一 个 平衡 点 ， 能 够 满足 大 多 数 用 户 的 流 计算 需求 。 


Spark Streming 是 Spark 的 一 个 组 成 部 分 ， 提 供 高 可 扩展 性 、 高 容错 性 的 流 处 理 能 力 。 下 面 的 例子 基于 Standalone 的 Spark 程 序 ， 接 收 和 处 理 Twitter 的 真实 采样 Twitter 流 。 在 这 个 例子 中 ， 用 户 可 以 
选择 使 用 Scala 或 者 Java 书 写 程序 。 


下 面 介绍 Berkeley 的 Spark Streaming 示 例 ， 读 者 可 以 通过 这 个 例子 开启 Spark Streaming 之 旅 。 


[由 示例 参考 http://ampcamp.berkeley.edu/big-data-mini-course/realtime-processing-with-spark-streaming.html 


6.3 ”数据 预 处 理 与 Cassandra 存 储 


Cassandra 是 一 个 混合 型 的 非 关 系 型 的 分 布 式 数据 库 ， 类 似 于 Amazon 的 Dynamo。 其 主要 功能 比 Dynamo (分 布 式 的 Key-Value 存 储 系统 ) 更 丰富 ， 但 支持 度 却 不 如 MongoDB。 


Cassandra 的 系统 架构 与 Dynamo 一 脉 相 承 ， 是 基于 O (1) DHT (分 布 式 哈 希 表 ) 的 完全 P2P 架 构 ， 与 传统 的 基于 Sharding 的 数据 库 集群 相 比 ，Cassandra 可 以 几乎 无 颖 地 加 入 或 删除 节点 ， 非 常 适 合 
节点 规模 变化 比较 快 的 应 用 场景 。 


Cassandra 的 数据 会 写 入 多 个 节点 ， 来 保证 数据 的 可 靠 性 ， 在 一 致 性 、 可 用 性 和 网 络 分 区 耐 受 能 力 (CAP) 的 折 囊 问题 上 ，Cassandra 比 较 灵 活 ， 用 户 在 读 取 时 可 以 指定 要 求 所 有 副本 一 致 (高 一 至 
性 ) 、 读 到 一 个 副本 即 可 (高 可 用 性 ) 或 是 通过 选举 来 确认 多 数 副本 一 致 即 可 ( 折 囊 ) 。 这 样 ，Cassandra 可 以 适用 于 有 节点 、 网 络 失效 ， 以 及 多 数据 中 心 的 场景 。 


本 例 将 通过 Spark 作 为 计算 引擎 ，Cassandra 作 为 存储 引擎 进行 数据 分 析 。 


6.4 Spark Streaming 热 点 Twitter 分 析 


在 实时 Twitter 分 析 中 ， 用 户 希望 看 到 当前 的 热点 Twitter 话题 ， 通 过 Spark Streaming 的 滑动 窗口 的 AP1， 可 以 满足 用 户 的 需求 。 


通过 下 面 的 示例 ， 用 户 可 以 统计 每 分 钟 的 热点 Twitter 话题 ， 统 计 每 分 钟 和 每 10s 窗 口内 的 热点 话题 ， 并 打印 。 


程序 通过 以 下 步骤 进行 统计 和 分 析 : 
1) 初始 化 Spark Streaming 上 下 文 。 
2) 创建 Twitter 输 入 流 。 


3) 对 推 文 预 处 理 ， 切 分 出 语句 。 


4) 统计 热点 话题 并 排序 。 


5) 打印 热点 话题 。 


在 下 面 的 具体 实例 中 ， 通 过 Spark Streaming 实 时 分 析 Tweets， 对 文本 进行 预 处 理 ， 统 计 热 点 话题 并 选 出 热点 话题 输出 。 以 下 是 具体 的 实现 代码 : 


import org.apache.spark.streaming.{Seconds, StreamingContext} 
import StreamingContext._ 
import org.apache.spark.SparkContext. 
import org.apache.spark.streaming.twitter._ 
object TwitterPopularTags { 
def main (args: Array[String]) { 
if (args.length < 6) { 
System.err.Println("Usage: sbt 'run <master> " + "consumerKey consumerSecret 
accessToken accessTokenSecret" + 
"” [filterl] [filter2] http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15547/0EBPS/Text/... [filter n]"+ "'") 
System.exit (1) 


} 
// 输入 参数 配置 
val (master, filters) = (args(0), args.slice(5, args.length)) 
// Twitter 证 书 验证 
val configKeys = List ("consumerKey", "consumerSecret", "accessToken", 
"accessTokenSecret") 
Val map = configKeys.zip(args.slice(1，5) .toList) .toMap 
configKeys.foreach (key => { 
if (!map.contains (key)) { 
throw new Exception ("Error setting OAuth authenticaion - value for " + key 
+ " not found") 
} 
val fullKey = "twitter4j .oauth."”+ key 
System. setProperty (fullKey, map (key)) 
i) 
// 初始 化 Spark Streaming 上 下 文 
val ssc = new StreamingContext (master, "TwitterPopularTags", 
Seconds (2)， 
System.getenv ("SPARK HOME"), 
StreamingContext. JarOfclass (this.getClass) ) 
// 创建 Twitter 输入 流 
Val stream = TwitterUtils.createStream(ssc, None, filters) 
// 对 Tweets 预 处 理 ， 切 分 出 语 身 
val hashTags = stream.flatMap (status => status.getText.split(" J 
.filter( .startsWith("#"))) 
// 统计 热点 话题 并 排序 
Val topCounts60 = hashTags.map(( , 1)).reduceByKeyAndWindow( + ， 
Seconds (60) ) 人 
.map{case (topic, count) => (count, topic)} 
‘transform(_.sortByKey (false)) 
Val topCounts10 = hashTags.map(( , 1)).reduceByKeyAndWindow( + ， 
Seconds (10) ) 加 - 
.map{case (topic, count) => (count, topic)} 
‘transform(_.sortByKey (false)) 
// 打印 热点 话题 
topCounts60.foreachRDD (rdd => { 
val topList = rdd.take(5) 
println("\nPopular topics in last 60 seconds (%s total):" 
.format (rdd.count () ) ) 
topList .foreach{case (count, tag) => println("%s (%s tweets)" 
.format (tag, count))} 
}) 
ssc.start () 
ssc.awaitTermination () 


6.5 Spark Streaming 在 线 情 感 分 析 


本 节 将 介绍 如 何 使 用 Spark 进 行 Twitter 的 情感 分 析 。 本 例 将 通过 Stanford NLP 库 中 的 情感 分 析 组 件 一 一 递归 神经 网 络 (Recursive Neural Network，RNN) 对 Twitter 进行 情感 分 析 。 


Stanford NLP Group 是 斯 坦 福 大 学 自然 语言 处 理 的 团队 ， 开 发 了 多 个 NLP 工具 ， 官 方 网 址 为 : http://nlp.stanford.edu/software/index.shtml。 其 开发 的 工具 包括 以 下 内 容 。 


1) Stanford CoreNLP: 采用 Java 编 写 的 面向 英文 的 处 理工 具 。 主 要 功能 包括 分 词 、 词 性 标注 、 命 名 实体 识别 、 语 法 分 析 等 。 


2) Stanford Word Segmenter: 采用 CRF (条 件 随 机 场 ) 算法 进行 分 词 ， 也 是 基于 Java 开 发 的 ， 同 时 可 以 支持 中 文 和 Arabic。 


3) Stanford POS Tagger: 采用 Java 编 写 的 面向 英文 、 中 文 、 法 语 、 阿 拉 伯 语 、 德 语 的 命名 实体 识别 工具 。 


4) Stanford Named Entity Recognizer: 采用 条 件 随机 场 模型 的 命名 实体 工具 。 


5) Stanford Parser: 进行 语法 分 析 的 工具 ， 支 持 英文 、 中 文 、 阿 拉 伯 文 和 法 语 。 


6) Stanford Classifier: 采用 Java 编 写 的 分 类 器 。 


将 通过 如 下 函数 对 文本 进行 情感 分 析 ， 将 文本 中 的 内 容 进行 解析 ， 并 通过 Stanford NLP 进行 情感 分 析 与 打分 。 


import java.util.Properties 

import edu.stanford.nlp.ling.CoreAnnotations 

import edu.stanford.nlp.neural.rnn.RNNCoreAnnotations 
import edu.stanford.nlp.pipeline.StanfordCoreNLP 

import edu.stanford.nlp.sentiment.SentimentCoreAnnotations 


import scala.collection.JavaConversions. 
import scala.collection.mutable.ListBuffer 
object SentimentAnalysisUtils { 
val nlpProps = 
val props = new Properties () 


props.setProperty ("annotators", "tokenize, ssplit, pos, lemma, parse, 


sentiment") 


pr 
} 


ops 


{ 


def detectSentiment (message: String): SENTIMENT TYPE = { 
// 初始 化 
val pipeline 

// 处 理 每 一 条 输入 的 Twitter 


1 annotation = pipeline.process (message) 


Va 
Va 
Va 
Va 
Va 


2 
区 
党 
人 


= new StanfordCoreNLP (nlpProps) 


sentiments: ListBuffer[Double] = ListBuffer () 
sizes: ListBuffer[Int] = ListBuffer () 
longest = 0 

mainSentiment = 0 


// 针对 解析 出 的 每 个 句子 进行 情感 分 析 


for (sentence <- 
annotation.get (classOf [CoreAnnotations.SentencesAnnotation])) { 
Val tree = 


} 


sentence.get (classOf[SentimentCoreaAnnotations .AnnotatedTree]) 
val sentiment = RNNCoreaAnnotations .getPredictedClass (tree) 
val partText = sentence.toString 
if (partText.length() > longest) { 

mainSentiment = sentiment 


longest 


上 


PartText .length () 


sentiments += sentiment.toDouble 
sizes += partText.length 


} 
// 求 出 整体 的 主流 情感 值 、 平 均 情感 值 、 加 权 情 感 值 。 
val averageSentiment:Double = { 
if(sentiments.size > 0) sentiments.sum / sentiments.size 
else -1 


val weightedSentiments = (sentiments, sizes) .zipped.map((sentiment, size) => 

sentiment * size) 

var weightedSentiment = weightedSentiments.sum / (sizes.fold(0) (_ 
0 


if (sentiments.size 
mainSentiment = 


} 


weightedSentiment = -1 


println("debug: main: " + mainSentiment) 


println ("debug: avg: 


" + averageSentiment) 


println("debug: weighted: " + weightedSentiment) 


/* 


very negative 
negative 
neutral 

positive 
very positive 


weightedSentiment match { 


} 
} 


case 
Case 
Case 
case 
Case 
Case 
Case 


S 


Mmmmw 


Es 
4 
4 在 
if 
二 
if 
3 


S 


Domoomomom 


<= 0.0 => NOT UNDERSTOOD 
长 => VERY NEGATIVE 
NEGATIVE 
NEUTRAL 
POSITIVE 

VERY POSITIVE 
NOT_UNDERSTOOD 


vv 


MaroODP 
V 


VA 人 A 人 A 人 


V 


trait SENTIMENT _ TYPE 


case 
Case 
Case 
Case 
Case 
Case 


} 
// 通过 Spark Streaming 对 Tweets 进 行 在 线 情 感 分 析 ， 并 调用 之 前 介绍 的 情感 分 析 函 数 。 


object 
object 
object 
object 
object 
object 


VERY NEGATIVE extends SENTIMENT TYPE 
NEGATIVE extends SENTIMENT TYPE 
NEUTRAL extends SENTIMENT TYPE 
POSITIVE extends SENTIMENT TYPE 

VERY POSITIVE extends SENTIMENT TYPE 
NOT_UNDERSTOOD extends SENTIMENT TYPE 


object TwitterSentiment extends StreamsWithCassandra { 
def main (args: Array[String]) { 

// 初始 化 与 证 书 创建 
TwitterCredentials.setCredentials () 


val ssc 


1) 


= CreateStreamingContext (2) 
// 获取 Twitter 数 据 流 

Val stream 
//_Twitter 数 据 流 预 处 理 
Val tweets = 
// Twitter 数 据 进行 情感 分 析 

tweets.map (text => { 
SentimentAnalysisUtils.detectSentiment (text) 


= TwitterUtils.createStream(ssc, None) 


stream.map { case (status) => (status.getText)} 


.foreachRDD (rdd => { 
// 将 结果 存储 到 MySQL 中 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15547/OEBPS/Text/... 


+: 


ssc.start () 
ssc.awaitTermination () 


} 


} 
// 将 结果 存储 到 MySQL 中 ， 在 上 面 的 程序 中 补 全 foreachRDD 中 的 内 容 。 本 例 使 用 了 库 : 
// https://github.com/takezoe/scala-jdbc 
// 用 户 也 可 以 通过 其 他 的 方式 调用 JDBC 进 行 数据 更 新 。 
import jp.sf.amateras.scala.jdbc. 
.foreachRDD (rdd => { 
// 将 结果 存储 到 MySQL 中 
rdd.mapPartitions (iter => { 
using (DriverManager .getConnection( 
"jdbc:mysql://localhost:3306/test", "root", "root")){ conn => 
iter .foreach (result => { 
conn.update( 
Sql"INSERT INTO SENTIMENT (SENTIMENT) 
result + ")") 


} 


iter 


} 


) 


VALUES 


("+ 


6.6 Spark SQL 进行 Twitter 分 析 


下 面 通过 Spark SQL 对 Tweets 进 行 离线 数据 分 析 ， 从 海量 Tweets 中 挖掘 出 知识 和 有 用 
的 数据 模式 可 以 参照 6.7.2 中 的 模式 进行 了 解 。 


行 具 体 分 析 。 使 


6.7 Twitter 可 视 化 


的 信息 。 本 节 使 用 


的 数据 将 比 之 前 的 数据 模式 更 加 丰富 ， 之 前 示例 主要 介绍 如 何 存储 ， 本 节 侧 本 


使 用 


Spark SQL 进 


的 一 个 问题 产生 了 ， 如 何 将 分 析出 的 结果 更 加 友好 地 展示 给 最 终 的 用 户 ， 让 他 们 有 直观 的 感受 ”许多 数据 可 视 化 工具 如 雨后春笋 般 产 生 。 如 D3、 百 度 
将 以 D3 为 例 ， 展 示 热 点 Twitter 的 词 云 。 


随 着 各 种 数据 分 析 工 具 的 发 展 ， 越 来 越 
ECharts、HighCharts 等 都 是 比较 常用 的 工具 ， 下 | 


四 


通过 开源 的 可 视 化 组 件 D3， 进 行 词 云 的 构建 。 


D3 是 最 流行 的 可 视 化 库 之 一 ， 它 被 很 多 其 他 的 表格 插件 所 使 用 。 它 允许 绑 定 任意 数据 到 DOM ， 然 后 将 数据 驱动 转换 应 用 到 Document 中 。 可 以 通过 它 用 一 个 数组 创建 基本 的 HTML 表 格 ， 或 是 利 
的 流体 过 度 和 交互 ， 用 相似 的 数据 创建 惊人 的 SVG 条 形 图 。 


d3-Cloud 是 一 个 能 够 构建 标签 云 的 小 工具 。Github 地 址 为 : https://github.com/jasondavies/d3-cloud。 


通过 d3-Cloud 可 以 将 之 前 处 理 的 热点 Tweet 词 进行 词 云 的 构建 ， 之 后 可 视 化 展示 出 来 。 


[Ng 


<!DOCTYPE html> 
<meta charset="utf-8"> 
<body> 
<script src="http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15547/0EBPS/Text/../lib/d3/d3.js"></script> 
<script src="http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15547/0EBPS/Text/../d3.1layout.cloud.js"></script> 
<script> 
Var fill = d3.scale.category20(); 
// 调用 D3 词 云 API 输 出 结果 
d3.1layout.cloud() .size([300，300]) 
.words( 
// 用 户 可 将 Words 中 的 数据 定制 为 其 他 数据 
// 替换 为 MySQL 中 存储 的 Twitter 热点 词 数据 
["Hello", “world", "normally", "you", "want", "more", "words", 
"than", "this"] .map(function(d) { 
return {text: d, size: 10 + Math.random() * 90}7 


进行 更 加 灵活 的 展示 。 例如， 可 以 将 其 中 的 words 


})) 
.Padding (5) 
.rotate (function() { return ~~(Math.random() * 2) * 90; 1}) 
.font ("Impact") 
.fontSize (function(d) { return d.size; }) 
on("end", draw) 
“Start (}» 
// 配置 D3 绘图 配置 进行 展示 。 
function aqraw (words) { 
d3.select ("body") .append ("svg") 
.attr ("width", 300) 
.attr ("height", 300) 
-append ("g") 
.attr ("transform", "translate(150,150)") 
.SelectAll ("text") 
.data (words) 
.enter () .append ("text") 
.style ("font-size", function(d) { return d.size + "px"; }) 
.style ("font-family", "Impact") 
.style ("fill", function(d, i) { return fil]l(i); }) 
.attr ("text-anchor", "middle") 
.attr ("transform", function(d) { 
return "translate(" + [d.x, d.y] + ")rotate(" + d.rotate + ")"; 
}) 
.text (function(d) { return d.text; }); 


} 
</script> 


中 | 


输出 和 展示 Twitter 词 云 结果 如 图 6-12 所 示 。 


图 6-12 ”热点 Twitter 词 云 


6.8 本章 小 结 


本 章 首先 对 Twitter、 项 目 背 景 以 及 系统 进行 了 简要 介绍 ， 系 统 处 理 数据 为 Twitter。 之 后 介绍 了 数据 分 析 应 用 的 整体 架构 ， 采 用 Spark、Spark Streaming、Spark SQL、Cassandra、MySQL 等 系统 构 
建 整 个 分 析 的 流水 线 。 后 续 针对 每 个 模块 分 别 进行 详细 介绍 ， 实 时 进行 Twitter 的 情感 分 析 ， 对 离线 汇总 的 Twitter 通过 Spark SQL 进行 相应 的 统计 分 析 。 


读者 通过 本 章 可 以 初步 认识 分 析 Twitter 等 社交 媒体 数据 的 方式 ， 用 户 可 以 定制 开发 数据 聆 取 与 输入 组 件 进行 新 浪 微 博 等 其 他 社交 媒体 数据 的 分 析 。 


新 闻 数 据 是 用 户 每 天 都 需要 浏览 的 文本 数据 ， 通 过 对 新 闻 进 行 分 析 有 着 很 强 的 现实 意义 ， 下 面 章节 将 就 如 何 使 用 Spark 进 行 新 闻 数 据 分 析 进行 介绍 。 


第 7 章 ”热点 新 闻 分 析 系 统 


7.1 新闻 数 据 分 析 


很 多 互联 网 公司 都 在 以 不 同 的 形式 提供 热点 新 闻 的 服务 ， 例 如 百度 、 谷 歌 、 搜 狗 等 ， 百 度 新 闻 系 统 实时 抓 取 主 流 媒 体 的 新 闻 数 据 ， 进 行 相似 新 闻 侦 测 ， 并 且 以 此 为 基础 加 入 手工 编辑 的 话题 信息 等 ， 形 
成 热点 事件 的 展示 页 面 。 百 度 新 闻 系 统 的 访问 量 已 经 非常 可 观 ， 由 此 可 见 基于 新 闻 的 热点 事件 侦 测 已 成 为 当前 互联 网 时 代 不 可 或 缺 的 技术 。 


本 章 将 基于 Spark 构 建 热点 新 闻 分 析 系 统 ， 通 过 Spark 进 行 实时 和 离线 热点 新 闻 的 分 析 。 


第 7 章 ”热点 新 闻 分 析 系 统 


7.1 新 闻 数 据 分 析 


很 多 互联 网 公司 都 在 以 不 同 的 形式 提供 热点 新 闻 的 服务 ， 例 如 百度 、 谷 歌 、 搜 狗 等 ， 百 度 新 闻 系 统 实时 抓 取 主 流 媒体 的 新 闻 数 据 ， 进 行 相似 新 闻 侦 测 ， 并 且 以 此 为 基础 加 入 手工 编辑 的 话题 信息 等 ， 形 
成 热点 事件 的 展示 页 面 。 百 度 新 闻 系 统 的 访问 量 已 经 非常 可 观 ， 由 此 可 见 基于 新 闻 的 热点 事件 侦 测 已 成 为 当前 互联 网 时 代 不 可 或 缺 的 技术 。 


本 章 将 基于 Spark 构 建 热点 新 闻 分 析 系 统 ， 通 过 Spark 进 行 实时 和 离线 热点 新 闻 的 分 析 。 


7.2 系统 架构 


本 节 将 介绍 整个 系统 的 核心 架构 。 通 过 对 整体 架构 的 了 解 ， 用 户 能 够 变换 其 中 各 个 部 分 的 组 件 ， 构 建 符合 自身 生产 环境 和 实验 环境 需求 的 分 析 系 统 。 


系统 主要 分 为 几 个 模块 : 


1) 新 闻 抓 取 模块 : 通过 开源 聆 虫 scrapy 抓 取 新 闻 ， 并 将 新 闻 传 输 到 后 端 消息 中 间 件 Kafka 和 离线 Key-Value 存 储 引 擎 MongoDB。 


DN 


实时 新 闻 分 析 模 块 : Spark Streaming 实 时 从 Kafka 获 取 新 闻 消 息 ， 进 行 预 处 理 ， 实 时 进行 新 闻 数 据 分 析 。 


3) 离线 新 闻 分 析 模 块 : Spark 定 期 从 MongoDB 中 批量 读 取 新 闻 ， 进 行 离线 热点 新 闻 分 析 。 


4) 可 视 化 呈现 界面 : 通过 可 视 化 界面 呈现 热点 新 闻 、 热 点 关键 词 等 信息 。 


图 7-1 为 系统 架构 图 。 
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图 7-1 系统 架构 


通过 以 上 架构 介绍 ， 读 者 可 以 对 整个 系统 有 直观 的 了 解 ， 下 面 将 对 各 个 模块 进行 更 细节 的 介绍 。 


7.3 疏 虫 抓 取 网 络 信息 


很 多 数据 产品 和 系统 的 数据 源 是 互联 网 ， 公 共 数 据 的 获取 需要 有 爬虫 的 支撑 ， 本 节 将 通过 开源 聆 虫 工具 Scra py 进行 互联 网 上 公共 新 闻 的 获取 ， 为 后 续 新 闻 文 本 的 数据 分 析 准 备 数据 集 。 


7.4 新 闻 文 本 数据 预 处 理 


首先 启动 MongoDB， 之 后 从 MongoDB 中 读 取 有 爬虫 怜 取 的 信息 。 这 样 可 以 对 存储 在 MongoDB 的 重点 文本 进行 数据 预 处 理 ， 为 之 后 更 加 深入 的 分 析 做 好 准备 。 


户 已 经 将 之 前 通过 scrapy 抓 取 的 新 闻 离 线 存 储 在 了 MongoDB 中 ， 通 过 Spark 将 之 前 的 网 页 信息 读 取 并 进行 预 处 理 ， 抽 取出 文档 ID 和 文本 信息 ， 为 后 续 的 分 析 英 定 基础 。 


// 初始 化 Spark 上 下 文 
Val sc = new SparkContext ("local", "Scala Word Count") 
// 配置 MongoDB 连 接 字符 串 
val config = new Configuration() 
config.set ("mongo.input.uri", "mongodb://127.0.0.1:27017/NYtimes.news") 
// 读 取 mongoDB 数 据 
Val mongoRDD = sc.newAPIHadoopRDD (config, 
classof [com.mongodb.hadoop.MongoInputFormat], classOf[Object], 
classOf [BSONObject]) 
// 输入 数据 格式 (ObjectId，BSONObject) 
// 文本 读 取 
Val textRDD = mongoRDD.flatMap (arg => { 
Val docID = arg. 2.get(" id") 
Var text = arg. 2.get("text") .toString 
// 文本 预 处 理 ， 将 英文 转 扔 为 小 写 ， 并 替换 .， 13NP 宇 得 为 空格 。 
dy 读者 可 以 根据 需求 进行 更 加 复杂 的 预 处 理 过 辑 。 
text = text.toLowerCase() .replaceAll("[.,!?\n]", " ") 
(docID, text) 
这 


通过 上 面 的 实例 ， 可 以 读 取 相 应 MongoDB 的 数据 ， 并 进行 解析 与 预 处 理 。 


7.5 ”新闻 聚 类 


下 面 通过 一 个 简单 示例 ， 快 速 进行 文本 的 聚 类 分 析 。 


通过 聚 类 分 析 ， 能 够 发 掘 文本 中 存在 的 主体 ， 也 就 是 对 文本 集 能 够 高 度 概括 ， 使 得 读者 能 够 更 快 和 更 加 明了 获取 文本 中 的 主体 和 知识 ， 下 面 将 通过 向 量 空间 模型 进行 数据 转换 ， 之 后 通过 KMeans 进 行 
聚 类。 


7.6 _ Spark Elastic Search 构 建 全 文 检索 引擎 


Elastic Search 是 一 个 基于 Lucene 构 建 的 开源 、 分 布 式 、RESTful 搜 索引 擎 。 设 计 用 于 云 计 算 中 ， 能 够 达到 实时 搜索 ， 稳 定 、 可 靠 、 快 速 ， 安 装 使 用 方便 。 支 持 通 过 HTTP 使 用 JSON 进 行 数据 索引 。 


通过 Elastic Search 使 得 Spark 能 够 具有 全 文 检索 能 力 ， 为 后 续 的 数据 处 理 提供 强 有 力 的 支持 。 例 如 ， 用 户 只 想 对 关于 “姚明 ”的 新 闻 进 行 分 析 ， 则 可 以 通过 Elastic Search 检 索 出 的 包含 姚明 的 文档 , 之 
后 再 通过 Spark 进 行 处 理 。 


在 正式 开始 前 ， 需 要 做 些 准备 。 首 先 ， 在 SBT 项 目 中 添加 依赖 。 


"org.elasticsearch" % "elasticsearch" % "1.5.0" 


后 续 将 通过 开源 的 项 目 spark-es 进 行 大 规模 Elastic Search 数 据 的 读 取 ， 并 进行 Elastic Search 和 MongoDB 的 数据 同步 。 


7.7 本章 小 结 


本 章 首先 介绍 了 新 闻 数 据 分 析 的 背景 。 之 后 介绍 了 整个 应 用 的 架构 ， 使 得 读者 能 够 首先 对 整个 数据 分 析 应 用 有 全 面 的 了 解 。 接 下 来 对 每 个 模块 进行 细 化 ， 首 先 通 过 Scrapy 定 制 新 闻 网 站 的 息 虫 ， 进 行 数 
据 采 集 。 对 采集 后 的 数据 进行 预 处 理 并 存储 于 MongoDB。 通 过 向 量 空间 模型 对 新 闻 文 本 数据 进行 特征 化 ， 对 处 理 后 的 新 闻 进 行 聚 类 。 同 时 系统 的 实时 模块 进行 实时 热点 新 闻 分 析 。 最 后 通过 Elastic Search 
构建 全 文 索引 ， 提 供 系统 查询 功能 ， 同 时 利用 Spark 进 行 更 深入 和 细 粒 度 的 分 析 。 


推荐 是 数据 分 析 的 重要 应 用 领域 ， 如 何 通过 Spark 进 行 协同 过 滤 推 荐 ”读者 可 以 通过 后 续 章节 一 探究 竟 。 


第 8 章 ”构建 分 布 式 的 协同 过 渡 推 荐 系统 


从 第 8 章 开 始 ， 将 介绍 Spark 在 机 器 学 习 和 数据 挖掘 中 的 应 用 。 随 着 互联 网 的 高 速 发 展 ， 社 交 网 络 和 电子 商务 等 互联 网 应 用 已 经 深入 到 商业 、 娱 乐 、 生 活 和 教育 的 方方面面 。 全 球 互联 网 每 天 都 产生 海量 
的 数据 ， 而 这 些 数 据 中 蕴含 着 不 可 估量 的 商业 价值 。 但 是 传统 的 数据 挖掘 和 机 器 学 习 技术 往往 不 能 够 高 效 地 进行 海量 数据 的 处 理 ， 因 此 如 何 构建 分 布 式 的 数据 分 析 系 统 是 当前 工业 界 和 学 术 界 的 热点 之 一 。 


MLlib 是 Spark 中 用 于 处 理 大 规模 机 器 学 习 任 务 的 强大 工具 。M1Llib 中 提供 了 各 种 经 典 分 类 、 聚 类 和 预测 算法 。 基 于 Spark 的 分 布 式 实现 ， 为 海量 数据 的 挖 握 提 供 了 简单 而 且 高 效 的 实现 方案 。 本 章 内 容 将 
首先 介绍 如 何 利用 Spark 实 现 基础 的 推荐 系统 ， 使 用 经 典 的 协同 过 滤 算法 进行 个 性 化 推荐 。 


8.1 推荐 系统 简介 


个 性 化 推荐 是 根据 用 户 的 兴趣 特点 和 购买 行为 ， 向 用 户 推荐 用 户 感 兴趣 的 信息 和 商品 。 随 着 电子 商务 规模 的 不 断 扩 大 ， 商 品 个 数 和 种 类 快速 增长 ， 顾 客 需 要 花费 大 量 的 时 间 才 能 找到 自己 想 买 的 商品 。 
这 种 浏览 大 量 无 关 的 信息 和 产品 过 程 无 疑 会 使 淹没 在 信息 过 载 问题 中 的 消费 者 不 断 流失 。 为 了 解决 这 些 问题 ， 个 性 化 推荐 系统 应 运 而 生 。 个 性 化 推荐 系统 是 建立 在 海量 数据 挖 所 基础 上 的 一 种 高 级 商务 智能 
平台 ， 以 帮助 电子 商务 网 站 为 其 顾客 购物 提供 完全 个 性 化 的 决策 支持 和 信息 服务 。 个 性 化 推荐 已 经 发 展 出 了 很 多 成 熟 的 算法 ， 下 面 列 出 一 些 常用 的 算法 。 


(1) 协同 过 滤 推 荐 算法 


协同 过 滤 推荐 (Collaborative Filtering) 是 推荐 系统 中 应 用 最 早 和 最 为 成 功 的 技术 之 一 。 它 一 般 采 用 最 近邻 技术 ， 利 用 用 户 的 历史 喜好 信息 计算 用 户 之 间 的 距离 ， 然 后 利用 目标 用 户 的 最 近邻 居 用 户 对 
商品 评价 的 加 权 评价 值 来 预测 目标 用 户 对 特定 商品 的 喜好 程度 ， 系 统 从 而 根据 这 一 喜好 程度 来 对 目标 用 户 进行 推荐 。 协 同 过 滤 最 大 优点 是 对 推荐 对 象 没有 特殊 的 要 求 ， 能 处 理 非 结构 化 的 复杂 对 象 ， 如 音 
乐 、 电 影 。 


协同 过 滤 推 荐 技术 又 分 为 3 种 类 型 ， 包 括 基于 用 户 的 推荐 (User-based Recom-mendation) ， 基 于 项 目的 推荐 (ltem-based Recommendation) 和 基于 模型 的 推荐 (Model- 
basedRecommendation) 。 在 后 面 的 案例 中 ， 会 展示 如 何在 Spark 中 实现 3 种 不 同类 型 的 协同 过 滤 。 


(2) 基于 关联 规则 的 推荐 


基于 关联 规则 的 推荐 (Association Rule-based Recommendation) 是 以 关联 规则 为 基础 ， 把 已 购 商 品 作为 规则 头 ， 规 则 体 为 推荐 对 象 。 关 联 规则 就 是 在 一 个 交易 数据 库 中 挖掘 购买 了 商品 集 X 的 交易 
中 有 多 大 比例 的 交易 同时 购买 了 商品 集 Y。 


(3) 基于 效用 的 推荐 


基于 效用 的 推荐 (Utility-based Recommendation) 是 建立 在 对 用 户 使 用 项 目的 效用 情况 上 计算 的 ， 其 核心 问题 是 怎么 样 为 每 一 个 用 户 去 创建 一 个 效用 函数 。 因 此 ， 用 户 资料 模型 很 大 程度 上 是 由 系 


统 所 采用 的 效用 函数 决定 的 。 


(4) 基于 知识 的 推荐 


基于 知识 的 推荐 (Knowledge-based Recommendation) 在 某 种 程度 是 可 以 看 成 是 一 种 推理 技术 。 效 用 知识 (Functional Knowledge) 是 一 种 关于 一 个 项 目 如 何 满足 某 一 特定 


解释 需要 和 推荐 的 关系 ， 所 以 用 户 资 料 可 以 是 任何 能 支持 推理 的 知识 结构 ， 它 可 以 是 用 户 已 经 规范 化 的 查询 ， 也 可 以 是 一 个 更 详细 的 用 户 需要 的 表示 。 
(5) 组 合 推荐 


由 于 各 种 推荐 方法 都 有 优 


8.2 协同 过 滤 介 绍 


协同 过 滤 算法 (collaborative filtering，CF) 是 推荐 系统 中 应 用 最 广泛 的 推荐 算法 之 一 。 协 同 过 滤 的 实质 ， 就 是 通过 预测 用 户 -物品 矩阵 中 缺失 的 评分 ， 来 预测 用 户 对 物品 的 偏好 。 更 加 


屿 点 ， 所 以 在 实际 中 组 合 推荐 (Hybrid Recommendation) 经 常 被 采用 。 内 容 推荐 和 协同 过 滤 推 荐 的 组 合 是 当前 工业 界 和 学 术 界 的 一 个 热点 。 


过 滤 算 法 主要 分 为 nemory-based CF 和 Model-based CF， 而 memory-based CF 包括 User-based CF 和 Item-based CF。 


8.3 ”基于 Spark 的 矩阵 运算 实现 协同 过 滤 算法 


8.3.1 Spark 中 的 矩阵 类 型 


协同 过 滤 算法 中 涉及 了 许多 的 矩阵 计算 。 当 用 户 和 项 目的 规模 达到 海量 的 规模 时 ， 即 使 是 基础 的 矩阵 操作 也 会 消耗 


下 。 


“ DistributedMatrix: DistributedMatrix 是 Spartk 中 所 有 分 布 式 矩 阵 的 父 类 。 目 前 实现 的 子 类 有 BlockMatrix，CoordinateMatrix，RowMatrix 和 IndexedRowMatrix， 且 不 同类 型 矩阵 之 间 能 相互 转换 。 


' BlockMatrix: BlockMatrix 提 供 了 按 块 存储 的 分 布 式 矩 阵 。BlockMatrix 的 每 一 个 分 块 是 一 个 本 地 Mattrix 对 象 ，BlockMattrix 是 Mattrix 分 块 和 对 应 分 块 坐 标的 RDD。 


:CoordinateMatrix: CootdinateMatrix 提 供 了 按 元 素 存 储 的 分 布 式 矩 阵 ， 是 抵 阵 元 素 对 象 MatrixEntry 的 RDD。 


:RowMattrix: RowMatrix 提 供 了 按 行 存 储 的 分 布 式 矩 阵 ， 是 Vector 对 象 的 RDD。 


. IndexedRowMatrix: IndexedRowMattix 是 添加 了 行 索引 的 RowMatrix。 


上 述 的 分 布 式 和 矩阵 类 型 都 在 org.apache.spark.mllib.linalg.distributed 下 。 


8.4 基于 Spark 的 MLlib 实 现 协 同 过 滤 算 法 


8.4.1 MLlib 的 推荐 算法 工具 


MLlib 是 Spark 中 用 于 机 器 学 习 的 强大 工 . 
org.apache.spark.mllib.recommendation 中 提供 了 3 个 


. Rating: Rating 对 象 是 一 个 用 户 、 项 目 和 评分 的 三 元 组 。 


包 。 协 同 过 滤 推荐 是 MLlib 提 供 的 核心 功能 之 一 ， 在 Spark 的 内 置 包 org.apache.spark.mllib.recommendation 是 集成 了 推荐 算法 的 常用 工具 。 


户 的 知识 ， 因 此 能 


体 地 ， 协 同 


于 协同 过 滤 推荐 的 数据 类 型 ， 即 Rating、ALS 和 MatrixFactorizationModel。 


“ALS: ALS 提 供 了 求解 带 偏 置 矩 阵 分 解 的 交替 最 小 二 乘 算法 (Alternating Least Squares，ALS) 。 


“MatrixFactorizationModel: ALS 求 解 矩 阵 分 解 返 回 的 结果 类 型 。 


作为 训练 结果 的 MatrixFactorizationModel 中 提供 了 多 种 推荐 操作 。 


“ val productFeatures: RDD[ (Int，Array[Double]) ]: 返回 天 阵 分 解 得 的 项 目 特征 。 


* val userFeatures: RDD[ (Int, Array[Double]) ] : 
* def predict (usersProducts: RDD[ (Int, Int) ]) 


* defpredict (user: Int, product: Int) 


返回 矩阵 分 解 得 的 用 户 特征 。 
: RDD[Rating]: 根据 参数 中 需要 预测 的 用 户 -项 目 ， 返 回 预测 的 评分 结果 。 


: 预测 用 户 user 对 项 目 product 的 评分 。 


“def recommendProducts (user: Int，num: Int) : Array[Rating]: 为 用 户 user 推 荐 个 数 为 num 的 商品 。 


* def recommendUsers (product: Int, num: Int) 


: Array[Rating]: 为 项 目 produoct 推 荐 可 能 对 其 感 兴趣 的 num 个 用 户 。 


8.5 案例 : 使 用 MLlib 协 同 过 滤 实现 电影 推荐 


在 本 小 节 中 , 将 


一 个 更 加 具体 的 案例 来 演示 如 何 使 


Spark 的 MLIib 中 协同 过 滤 工 具 实 现 电影 推荐 。 


巨大 的 计算 资源 。Spark 提 供 了 和 矩阵 不 同方 式 的 分 布 式 的 存储 ， 包 括 的 基本 类 型 如 


8.6 本章 小 结 


本 章 介绍 了 3 种 不 同 的 协同 过 滤 算 法 (基于 用 户 的 协同 过 滤 User-based CF、 基 于 项 目的 协同 过 滤 ltem-based CF 以 及 基于 模型 的 协同 过 滤 Model-based) 及 其 基本 原理 。 然 后 介绍 了 Spark 中 实现 协同 


过 滤 所 涉及 的 相关 类 型 和 函数 ， 并 给 出 了 3 种 协同 过 滤 算 法 的 Spark 实 现 。 最 后 基于 MovieLens 数 据 集 ， 讲 解 了 构建 协同 过 滤 推 荐 系统 的 案例 。 


第 9 章 ”基于 Spark 的 社交 网 络 分 析 


如 今世 界 进入 互联 网 时 代 ， 社 交 网 络 已 经 成 为 日 常生 活 中 不 可 缺少 的 一 部 分 。 社 交 网 络 应 用 是 互联 网 应 
析 (Social Network Analysis，SNA) 是 目前 数据 挖掘 中 与 社会 生活 联系 最 紧密 的 热点 之 一 ， 无 论 是 工业 界 还 是 学 术 界 都 希望 通过 社交 网 络 分 析 发 掘 潜在 的 


在 第 9 章 当中 ， 将 讲解 社交 网 络 分 析 的 理论 ， 介 绍 社交 网 络 中 两 大 核心 问题 : 社团 挖掘 和 链 路 预测 。 社 团 


及 Spark 的 MLlib 中 的 聚 类 和 分 类 工具 包 ， 并 且 通 过 实战 向 读者 展示 使 用 Spark 进 行 大 规模 社交 网 络 分 析 的 技术 。 


9.1 社交 网 络 介绍 


社交 网 络 通常 是 指 用 户 和 用 户 之 间 的 社交 关系 构成 的 网 络 拓扑 结构 。 在 社交 网 络 当中 ， 通 常 以 项 点 表示 ， 


9.2 ”社交 网 络 中 社团 挖掘 算法 


户 之 间 的 社交 关系 则 以 边 表示 。 


社团 挖掘 (Community Discovery) 是 指 从 社交 网 络 中 发 现 潜在 的 社交 团体 。 社 交 团体 内 部 的 


的 用 户 之 间 存 在 大 量 的 好 友 关 系 ， 而 清华 大 学 和 北京 大 学 之 间 的 用 户 好 友 关 系 就 相对 较 少 。 社 团 挖掘 又 可 以 看 作 是 聚 类 分 析 ， 即 将 关联 最 紧密 的 


使 用 社团 挖掘 算法 可 以 找到 社交 网 络 当中 的 潜在 集体 ， 可 以 自动 为 社交 网 络 中 的 人 群 进行 分 类 ， 


9.3 Spark 中 的 K 均 值 算法 


9.3.1 Spark 中 与 K 均 值 有 关 的 对 象 和 方法 


户 之 间 往 往 联系 较为 紧密 ， 而 社交 团体 之 间 的 


并 且 为 预测 用 户 新 的 好 友 ， 为 同类 用 户 做 内 容 推荐 等 作用 。 


在 库 org.apache.spark.mllib.clustering 中 ， 与 K 均 值 相关 的 对 象 包括 KMeans 和 KMeansModel。 


对 象 KMeans 中 包含 了 分 布 式 的 K 均 值 算法 的 实现 ， 对 象 KMeans 中 相关 的 函数 如 下 : 


“def setK (k: Int) : KMeans.this.type: 设置 需要 聚 类 的 个 数 。 默 认 的 聚 类 个 数 为 2。 


“def setMaxIterations (maxIterations: Int) : KMeans.this.type: 设置 区 均值 算法 最 大 的 迭代 次 数 。 


默认 的 最 大 迭代 次 数 为 20 次 。 


的 核心 组 成 部 分 ， 而 社交 网 络 的 数据 也 构成 了 互联 网 大 数据 的 一 个 重要 组 成 部 分 。 社 交 网 络 分 
巨大 商业 价值 。 


挖 握 和 链 路 预测 又 分 别 对 应 着 机 器 学 习 中 的 聚 类 和 分 类 ， 因 此 将 介绍 聚 类 和 分 类 的 相关 知识 ， 以 


户 联系 较 少 。 例 如 ， 在 人 人 网 当中 ， 清 华 大 学 这 个 团体 
户 聚集 为 一 个 类 别 。 


' def setInitializationMode (initializationMode: String) : 区 Means.this.type: 设置 初始 化 聚 类 中 心 的 算法 。 若 输出 参数 为 “random” ， 则 随机 选择 多 个 样本 作为 初始 聚 类 中 心 ; 若 输 入 参数 为 “k- 


means||”， 则 使 用 “k-means||” 和 工法 计算 初始 化 聚 类 中 心 。 “k-means||” 算 法 是 “k-means++” 算 法 的 Spatk 分 布 式 实 现 。 


“def setRuns (runs: Int) : KMeans.this.type: 设置 K 均 值 算法 运行 的 次 数 。 通 常 K 均 值 算法 的 结果 很 容易 受 初始 化 聚 类 中 心 的 影响 ; 如 果 初 始 化 聚 类 中 心 选取 不 佳 ，K 均 值 算法 只 能 收敛 到 局 部 最 优 解 。 
然而 如 果 对 同一 个 数据 集 多 次 运行 均值 算法 ， 并 且 每 次 选择 不 一 样 的 初始 化 聚 类 中 心 ， 并 且 在 多 次 运行 结果 中 选择 最 佳 聚 类 结果 ， 那 么 就 可 以 保证 结果 尽量 接近 最 优 聚 类 。 默 认 K 均 值 算法 只 运行 一 次 。 


“def setEpsilon (epsilon: Double) : KMeans.this.typ: 设置 区 均值 算法 迭代 中 止 的 判断 闻 值 。 


' defrun (data: RDD[Vector]) : KMeansModel: 对 输入 数据 集运 行 氏 均值 算法 。 返 回 的 结果 保存 在 多 MeansModel 对 象 当中 。 


KMeansModel 对 象 中 包含 了 K 均 值 算法 的 计算 结果 ， 包 含 的 变量 和 函数 如 下 。 


“ Val clusterCenters: Attray[Vectoflj: 返回 聚 类 的 中 心 。 


.def predict (points: RDD[Vectod) : RDD[Ind: 预测 输入 样本 点 的 所 属 聚 类 。 


9.4 案例 : 基于 Spark 的 Facebook 社 团 挖掘 


9.4.1 SNAP 社 交 网 络 数据 集 介 绍 


SNAP 的 全 称 是 Stanford Network Analysis Project， 是 由 斯 坦 福 大 学 发 起 的 社交 网 络 分 析 项 


。SNAP 中 包括 了 一 套 开源 的 网 络 分 析 工 


， 以 及 SNAP 数 和 


居 集 。 SNAP 数 据 集中 包含 了 多 种 来 源 的 网 


络 ， 如 社交 网 络 、 协 作 网 络 、 


Web 链 接 网 络 、 通 信 网 络 等 ; 同时 SNAP 数 据 集中 的 网 络 涵盖 了 不 同类 型 ， 如 有 向 网 络 、 无 向 网 络 、 二 部 图 网 络 、 时 序 网 络 、 标 签 网 络 等 。 


SNAP 社 交 网 络 数据 集 的 来 源 包括 了 Facebook，Google+，Twitter，Epinions，Slashdot，LiveJournal 和 Wikipedia。 在 本 节 的 案例 中 ， 将 对 Facebook 的 社交 网 络 进行 社团 挖 据 。 数 据 集 的 官方 下 载 


地 址 为 http://snap.stanford. 


SNAP 数 据 集 的 Faceboo 


.edu/data/facebook.tar.gz。 


k 社 交 网 络 是 一 个 无 向 图 ， 其 中 包括 4039 个 节点 (用 户 ) ，88234 条 边 (好 友 关 系 ) 。Facebook 社 交 网 络 数据 又 被 分 为 了 10 个 子 网 络 数据 集 ， 每 个 子 网 络 数据 集中 有 一 
个 .edges 的 文件 ， 文 件 的 每 一 行 是 一 条 边 的 两 个 节点 的 ID 号 ， 格 式 如 下 : 


236 186 
IT22. 285 


本 案例 中 ， 以 Facebook 


网 络 数据 集 的 子 网 络 数据 0.edges 为 例 ， 展 示 利 用 Spark 实 现 分 布 式 的 社团 挖掘 算法 。 


9.5 “社交 网 络 中 的 链 路 预测 算法 


社交 网 络 中 的 链 路 预测 (Link Prediction) 是 指 如 何 通过 已 知 的 网 络 节点 以 及 网 络 结 构 等 信息 预测 网 络 中 尚未 产生 连 边 的 两 个 节点 之 间 产 生 链接 的 可 能 性 。 这 种 预测 既 包 含 了 对 未 发 现 链接 的 预测 ( 例 


如 两 个 用 户 在 现实 生活 中 是 好 友 ， 但 是 在 社交 网 络 中 还 未 相互 关注 ) ， 也 包含 了 对 未 来 链接 的 预测 (例如 两 个 互 不 相识 的 


链 路 预测 问题 可 以 看 作 是 一 个 分 类 问题 。 比 如 社交 网 络 中 已 知 的 好 友 关 系 就 可 以 看 作 是 一 个 正 样本 ; 而 


av 
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趣 爱好 不 一 致 并 且 长 时 间 不 是 好 友 的 两 个 用 户 ， 或 者 符号 社交 网 络 中 被 负 连 接 关 联 的 两 个 


户 ， 就 可 以 看 作 是 一 个 负 样 本 。 分 类 问题 的 求解 救 转 换 为 对 正 负 样 本 的 特征 进行 建 模 ， 并 且 选 择 合适 的 分 类 器 进行 模型 训练 。 


9.6 Spark MLlib 中 的 Logistic 回 归 


在 Spark 的 MLlib 工 具 包 中 ， 提 供 了 非常 完整 的 分 类 器 相关 类 型 。 以 链 路 预测 会 使 用 到 的 Logistic 回 归 为 例 进行 讲解 。 


9.7 案例: 基于 Spark 的 链 路 预测 算法 


9.7.1 SNAP 符 号 社交 网 络 Epinions 数 据 集 


户 有 相似 的 兴趣 爱好 ， 极 有 可 能 在 未 来 成 为 好 友 ) 。 


在 本 案例 中 ， 使 用 SNAP 项 目 中 提供 的 有 向 符号 社交 网 络 Epinions 数 据 集 作为 测试 Spark 下 链 路 预测 算法 的 基础 数据 。Epinions 数 据 集中 包含 了 131828 个 节点 ，841372 条 边 。 数 据 的 下 载 地 址 
为 http://snap.stanford.edu/data/soc-sign-epinions.txt.gz。 


Epinions 数 据 集 的 部 分 数据 如 下 : 


# Directed graph: soc-sign-epinions 
# Epinions signed social network 
# Nodes: 131828 Edges: 841372 


# FromNodeId ToNodeId Sign 
0 1 = 和 

1 128552 = 

2 3 1 

4 5 “= 

4 155 党 浊 

4 558 1 

4 1509 A 


数据 的 每 一 行 是 一 条 有 向 边 ， 格 式 为 起 点 ID][ 终 点 ID][ 符 号 1/-1]， 中 间 用 (Tab) 键 隔 开 。 


选择 数据 集中 的 正 边 构建 社交 网 络 ， 用 于 统计 各 种 特征 ; 选择 正 边 作为 正 样本 ， 负 边 作为 负 样 本 。 


9.8 本章 小 结 


本 章 介绍 了 社交 网 络 的 基本 概念 ， 以 及 基于 谱 聚 类 的 社团 


后 基于 SNAP 数 据 集 ， 给 出 了 Spark 实 现 社交 挖掘 和 链 路 预测 算法 的 案例 。 


随 着 近年 来 互联 网 上 社交 媒体 迅速 发 展 ， 网 络 提供 给 用 户 的 内 容 呈 爆炸 式 增长 。 面 对 海量 的 互联 网 资讯 ， 
系统 为 用 户 推送 可 能 感 兴趣 的 内 容 。 推 荐 系统 通过 分 析 社 交 媒体 的 内 容 主题 ， 同 时 分 析 用 户 的 浏览 历史 ， 然 后 从 互联 网 中 发 握 出 与 


在 本 章 将 讲解 主题 模型 


挖掘 算法 和 基于 Logistics 回 归 的 链 路 预测 算法 。 然 后 介绍 了 Spark 中 与 K 均 值 和 Logistics 回 归 相 关 的 类 型 和 函数 ， 并 给 出 了 相应 的 程序 实例 。 最 


第 10 章 ”基于 Spark 的 大 规模 新 闻 主 题 分 析 


可 以 使 


搜索 引擎 主动 查找 自己 需要 的 内 容 。 而 互联 网 社交 媒体 发 展 的 新 趋势 ， 是 由 推荐 


户 个 人 偏好 相近 的 内 容 。 


(Topic Model) 的 理论 和 Spark 下 主题 模型 的 实现 。 主 题 模型 是 当前 用 于 内 容 分 析 、 聚 类 和 推荐 应 用 最 


本 向 量 投射 到 更 容易 分 析 的 


EF 题 空间 当中 ， 去 除 文本 中 存在 的 噪声 ， 是 文本 分 析 的 一 种 强 有 力 技术 。 


泛 的 模型 之 一 。 该 模型 能 够 分 析出 文档 或 文档 集 的 主题 概率 分 布 ， 将 文 


10.1 ”主题 模型 简介 


主题 模型 (Topic Model) 在 机 器 学 习 和 
方 说 ， 如 果 一 篇 文章 是 有 关 旅 游 的 ， 那 “风景 


然 语言 处 理 等 领域 是 用 来 在 一 系列 文档 中 发 现 抽象 主题 的 一 种 统计 模型 。 
”和 “酒店 ”等 词 出 现 的 频率 会 高 些 。 如 果 一 篇 文章 是 有 关 美 食 的 ， 那 “ 餐 


题 ， 而 且 每 个 主题 所 占 比 例 各 不 相同 。 如 果 一 


篇 文章 10% 和 旅游 有 关 ，90% 和 美食 有 关 ， 那 么 和 美食 相关 的 关键 字 出 现 的 次 数 大 概 会 是 和 


观 来 讲 ， 如 果 一 篇 文章 有 一 个 中 心思 想 ， 那 么 一 些 特 定 词语 会 更 频繁 的 出 现 。 比 
厅 ” 和 “美味 ”等 词 出 现 的 频率 会 高 些 。 更 进一步 地 ， 一 篇 文章 可 以 包含 多 种 主 


旅游 相关 的 关键 字 出 现 次 数 的 9 倍 。 一 个 主题 模型 试 轿 


体现 文档 的 这 种 特点 。 主 题 模型 自动 分 析 每 个 文档 ， 统 计 文档 内 的 词语 ， 根 据 统计 的 信息 来 断定 当前 文档 含有 哪些 主题 ， 以 及 每 个 主题 所 占 的 比例 各 为 多 少 。 


天 


主题 模型 和 事先 设 定 的 主题 个 数 ， 可 以 训练 出 文档 集合 中 不 同 主题 所 占 的 比例 〈 又 叫 


从 文档 集合 中 训练 得 到 的 主题 比例 和 


题 分 布 ， 可 以 进一步 地 用 在 数据 挖掘 任务 中 。 


1) 主题 推断 : 给 定 一 篇 新 的 文档 X， 可 以 利 
2) 文档 聚 类 : 主题 可 以 看 作 是 聚 类 中 心 ， 而 文档 可 以 看 作 是 于 多 个 聚 类 中 心 相关 联 的 数 折 


3) 特征 提取 : 由 于 主题 模型 可 以 推断 出 每 个 文档 在 不 同 主题 上 的 分 布 ， 因 此 这 个 分 布 可 以 看 作 是 文档 的 一 个 新 特征 。 该 特征 可 以 


4) 维度 压缩 : 主题 模型 得 到 的 主题 分 布 特征 ， 可 以 看 作 是 将 原 有 的 高 维 文档 向 量 投影 在 低 维 主 


10.2 ”主题 模型 LDA 


10.2.1 ”LDA 模型 介绍 


隐 狄 利克 雷 分 布 (Latent Dirichlet Allocation，LDA) 是 使 
率 分 布 的 形式 给 出 ， 从 而 通过 分 析 一 些 文档 抽取 出 它们 的 3 


EF 题 比例 ，Topic Proportions) 以 及 各 个 3 


已 有 的 主题 模型 训练 结果 ， 计 算出 该 文档 X 中 所 包含 的 主题 ， 以 及 各 个 主题 所 在 比重 。 


EF 题 下 关键 词 的 出 现 概率 (又 叫 3 


局 样本。 利用 主题 模型 做 文档 聚 类 ， 可 以 用 于 


于 其 


题 空 间 当中 。 


最 广泛 的 主题 模型 之 一 。LDA 模 型 由 David Blei、Andrew Ng、Michael Jordan 于 2003 稀 
E 题 (分 布 ) 出 来 后 ， 便 可 以 根据 3 


题 (分 布 ) 进行 


成 ， 词 与 词 之 间 没 有 先后 顺序 的 关系 。 一 篇 文档 可 以 包含 多 个 主题 ， 文 档 中 每 一 个 词 都 由 其 中 的 一 个 主题 生成 。 


LDA 的 这 3 位 作者 在 原始 论文 中 给 了 一 个 简单 的 例子 。 比 Eb 


示 。 


假设 每 个 主题 在 一 篇 文档 所 占 的 概率 分 别 为 P ("Arts") =0.3, P ("Budgets") =0.3, P ("Children") =0.3, P ("Education") =0.1。 同 时 假设 每 个 主题 下 每 个 单词 出 现 的 概率 分 布 ， 例 如 Arts 主 


下 单词 New 出 现 的 概率 是 P ("New"|"Arts") =0.08。 


然后 一 篇 文章 可 以 按照 如 下 的 方式 生成 。 


1) 首先 从 主题 Arts、Budgets、Children、Education 中 以 上 述 主 题 分 布 概率 选取 一 个 主题 T。 


“Arts” 


NEW 
FILM 
SHOW 
MUsIC 
MOVIE 
PLAY 
MUSICAL 
BEST 
ACTOR 
FIRST 
YORK 
OPERA 
THEATER 
ACTRESS 
LOVE 


“Budeets”™ 


MILLION 
TAX 
PROGRAM 
BUDGET 
BILLION 
FEDERAL 
YEAR 
SPENDING 
NEW 
STATE 
PLAN 
MONEY 
PROGRA MS 


GOVERNMENT 


CONGRESS 


假设 事先 给 定 了 这 几 个 主题 : Arts、Budgets、Children、Education， 然 


“Children” 


CHILDREN 
WOMEN 
PEOPLE 
CHILD 
YEARS 
FANILIES 
WORK 
PARENTS 
SAYS 
FAMILY 
WELFARE 
MEN 
PERCENT 
CARE 
LIFE 


图 10-1 4 个 不 同 主题 和 其 相关 词语 


后 通过 学 习 的 方式 ， 获 取 每 个 


新 组 织 文 档 数据 集 。 


他 的 机 器 学 习 模型 当中 。 


数学 框架 来 


FE 题 分 布 ，Topic Distributions) 。 


F 提 出 ， 它 可 以 将 文档 集中 每 篇 文档 的 主题 以 概 
F 题 聚 类 或 文本 分 类 。 同 时 ， 它 是 一 种 典型 的 Bag-of-words 模 型 ， 即 一 篇 文档 是 由 一 组 词 构 


EF 题 Topic 对 应 的 词语 ， 如 图 10-1 所 


陪 


“Pducation” 


SCHOOL 
STUDENTS 
SCHOOLS 
EDUCAIION 
TEACHERS 
HIGH 
PUBLIC 
TEACHER 
BENNETT 
MANIGAT 
NAMP HY 
STATE 
PRESIDENT 


ELEMENTARY 


HAIII 


2) 确定 主题 为 T 后 ， 再 以 概率 选取 主题 T 下 的 某 个 单词 w。 


3) 不 断 地 重复 这 两 步 ， 直 到 生成 整 篇 文档 的 所 有 单词 ， 最 终生 成 如 图 10-2 所 示 的 一 篇 文章 (其 中 不 同 颜色 的 词语 分 别 对 应 图 10-1 中 不 同 主题 下 的 词 ， 黑 色 单 词 为 4 个 主题 之 外 的 辅助 词 ) 。 


The William Randolph Hearst Foundation will give $1.25 million to Lincoln Center, Metropoli- 
tan Opera Co., New York Philharmonic and Juilliard School. “Our board felt that we had a 
real opportunity to make a mark on the future of the performing arts with these grants an act 
every bit as important as our traditional areas of support in health, medical research, education 
and the social services, Hearst Foundation President Randolph A. Hearst said Monday in 


announcing the grants. Lincoln Center’s share will be $200,000 for its new buildine, which 
will house young artists and provide new public facilities. The Metropolitan Opera Co. and 
New York Philharmonic will receive $400.000 each. The Juilliard School, where music and 
the performing arts are taught, will get $250,000. The Hearst Foundation, a leading supporter 
of the Lincoln Center Consolidated Corporate Fund, will make its usual annual $100,000 
donation, too. 


图 10-2 ”从 4 个 主题 中 生成 的 文档 


从 生成 文档 可 以 看 出 ，Arts、Budgets、Children 主 题 的 单词 数量 基本 一 致 ， 而 Education 主 题 的 单词 数量 最 少 ， 大 约 为 其 他 3 个 主题 单词 数量 的 1/3。 


LDA 主 题 模 型 的 产生 式 过程 和 概率 图 模型 (图 10-3) 如 下 。 


1) 从 狄 利克 雷 分 布 a 中 取样 生成 文档 的 主题 分 布 6;。 


2) 从 主题 的 多 项 式 分 布 6 中 取样 生成 文档 i 第 j 个 词 的 主题 Zi, j。 


3) 从 狄 利克 雷 分 布 B 中 取样 生成 主题 Zi，j 对 应 的 词语 分 布 pz j。 


4) 从 词语 的 多 项 式 分 布 pz” 中 采样 最 终生 成 词语 wi, j。 


10.3 Spark 中 的 LDA 模 型 


10.3.1 ”MLlib 对 LDA 的 支持 


Spark 从 1.3 版 本 开始 支持 LDA 模 型 。 库 org.apache.spark.mllib.clustering 下 相应 核心 类 型 有 LDA,，DistributedLDAModel。 


类 LDA 是 主题 模型 求解 的 类 ， 当 前 版 本 中 使 用 的 求解 算法 是 10.2.2 节 中 介绍 的 分 布 式 EM 算法 ; 在 调用 函数 run (documents: RDD[ (Long，Vector) ]) 求解 LDA 模 型 前 ,需要 通过 调用 下 列 函数 设 
置 相应 的 参数 。 


“defsetK (k: Int) : LDA.this.type: 设置 LDA 模 型 训练 的 主题 个 数 。 默 认 的 主题 个 数 为 10。 
“def setMaxIterations (maxIterations: Int) : LDA.this.type: 设置 LDA 求 解 的 EM 算法 最 大 迭代 次 数 。 默 认 的 最 大 迭代 次 数 为 20。 


“def setDocConcentration (docConcentration: Double) : LDA.this.type: 设置 主题 比例 的 先 验 参数 ， 设 置 值 必须 大 于 1.0。 该 参数 越 大 ， 则 文档 在 不 同 主题 上 的 分 布 越 平 消 。 如 果 不 设置 该 参数 ， 则 使 用 
(50/k) +1 作 为 默认 值 。 


“def setTopicConcentration (topicConcentration: Double) : LDA.this.type: 设置 各 主题 在 单词 上 分 布 的 先 验 参 数 ， 设 置 值 必须 大 于 1.0。 如 果 不 设置 该 参数 ， 则 使 用 1.1 作 为 默认 值 。 


函数 run (documents: RDD[ (Long，Vector) ]) 将 训练 结果 作为 DistributedLDAModel 返 回 。 


类 DistributedLDAModel 是 LDA 的 分 布 式 训练 结果 ， 包 含 了 各 主题 比例 以 及 各 主题 的 单词 分 布 。 调 用 DistributedLDAModel 的 函数 可 以 返回 相应 的 训练 结果 : 


“ def desctribeTopics (maxTermsPerTopic: Int) : Array[ (Array[Intj，Array[Double]) ]: 返回 每 个 主题 下 最 重要 的 maxTermsPerTopic 个 单词 和 相应 的 分 布 概率 。 如 果 不 输入 参数 ， 则 返回 所 以 的 单词 (往往 
单词 量 巨大 ) 。 


“ deftopicDistributions: RDD[ (Long，Vector) ]: 返回 训练 集 的 文档 在 各 主题 的 分 布 概率 。 


“val logLikelihood: Double: 返回 训练 集 的 对 数 似 然 概率 P (docs|topics，topic distributions for docs，alpha，eta) ， 用 于 模型 的 校 验 。 


10.4 案例 : Newsgroups 新 闻 的 主题 分 析 


本 节 当中 ， 我 们 将 以 Newsgroups 的 新 闻 数 据 作 为 示例 ， 讲 解 如 何 对 新 闻 数 据 进行 主题 分 析 。 


10.5 本章 小 结 


本 章 介绍 了 主题 模型 的 基本 概念 、 原 理 和 常见 的 求解 方法 ， 并 且 给 出 了 Spark 中 与 主题 模型 相关 的 类 型 和 函数 。 同 时 给 出 了 Spark 求 解 LDA 模 型 的 示例 ， 以 及 基于 Newsgroup 真 实 新 闻 数 据 集 的 主题 聚 
类 和 分 类 算法 案例 。 


第 11 章 ”构建 分 布 式 的 搜索 引擎 


搜索 引 丈 是 互联 网 时 代 最 重要 的 应 用 之 一 。 几 乎 每 天 都 要 使 用 搜索 引擎 从 海量 的 互联 网 当中 查找 自己 需要 的 网 页 。 搜 索引 警 是 一 项 非常 复杂 的 技术 ， 其 中 包含 很 多 机 器 学 习 的 知识 。 


在 本 章 中 ， 将 使 用 Spark 来 实现 搜索 引擎 的 搜索 结果 排序 算法 ， 包 括 如 何 计算 网 页 的 PageRank 值 和 实现 基于 Ranking SVM 的 查询 相关 排序 算法 。 除 了 需要 用 到 MLlib 之 外 ， 将 介绍 另 一 个 重要 的 库 
GraphX。 


11.1 搜索 引 警 简介 


搜索 引擎 ， 通 常 指 的 是 收集 了 互联 网 上 海量 的 网 页 并 对 网 页 中 的 关键 词 进行 索引 ， 建 立 索 引 数 据 库 的 全 文 搜索 引擎 。 当 用 户 查找 某 个 关键 词 的 时 候 ， 所 有 在 页 面 内 容 中 包含 了 该 关键 词 的 网 页 都 将 作为 
搜索 结果 被 搜 出 来 。 在 经 过 搜索 引擎 的 排序 算法 进行 排序 后 ， 这 些 结果 网 页 将 按照 其 重要 性 和 与 搜索 关键 词 的 相关 性 ， 依 次 排列 。 


标准 的 搜索 引擎 通常 可 以 分 为 4 大 系统 ， 如 图 11-1 所 示 : 下 载 系统 、 分 析 系 统 、 索 引 系统 和 查询 系统 。 


下 载 系统 也 通常 被 称 为 网 络 候 虫 (Web Crawler) ， 搜 索引 掌 通 过 下 载 系 统 在 互联 网 上 发 现 新 网 页 并 抓 取 网 页 文件 。 下 载 系统 从 已 知 的 网 址 入 口 出 发 ， 访 问 这 些 网 址 并 且 抓 取 网 页 文件 。 同 时 ， 搜 索引 
雹 通过 拒 虫 跟踪 网 页 中 的 链接 ， 在 不 同 的 网 站 之 间 跳 转 ， 从 而 发 现 并 且 获 取 更 多 的 网 页 。 


分 析 系 统 


网 页 库 


提交 查询 


全 全 查询 系统 


返回 查询 结果 


图 11-1 搜索 引擎 的 基本 架构 


分 析 系 统 的 主要 功能 包括 对 抓 取 网 页 进行 分 解 ， 定 位 网 页 标题 和 正文 ， 进 行 中 文 分 词 和 去 除 重复 网 页 等 。 被 分 析 系 统 处 理 过 的 网 页 将 通过 索引 系统 保存 在 索引 库 当中 。 


索引 系统 存储 并 索引 了 数 以 亿 计 经 过 了 分 析 处 理 的 网 页 。 根 据 用 户 提供 的 检索 关键 词 ， 高 性 能 的 索引 系统 能 够 在 秒 级 时 间 内 提供 包含 检索 关键 词 的 网 页 结果 。 


查询 系统 能 够 对 用 户 提交 的 搜索 关键 词 进行 快速 处 理 ， 如 中 文 特 有 的 分 词 处 理 ， 去 除 停止 词 ， 判 断 是 否 需要 启动 整合 搜索 ， 判 断 是 否 有 拼写 错误 或 错别字 等 情况 。 同 时 ， 查 询 系统 需要 对 索引 系统 返回 
的 包含 查询 关键 词 的 结果 网 页 进行 排序 ， 将 最 相关 、 最 可 靠 的 信息 返回 给 用 户 。 


11.2 搜索 排序 概述 


排序 是 众多 信息 检索 系统 中 的 一 个 核心 问题 ， 如 文档 检索 、 协 同 过 滤 、 关 键 词 提取 、 命 名 实体 识别 、 电 子 邮 件 路 由 、 情 感 分 析 、 产 品评 价 和 反 垃 圾 等 。 所 谓 搜索 排序 ， 就 是 对 搜索 关键 词 的 索引 结果 按 
照 其 重要 性 和 搜索 相关 度 进行 排序 。 一 个 常见 的 搜索 排序 问题 如 图 11-2 所 示 。 当 用 户 输入 查询 词 “Spark 数 据 分 析 案例 ”， 搜 索引 擎 首先 将 查询 词 做 中 文 分 词 处 理 ， 得 到 关键 词 “Spark” “数据 ”“ 分 
析 ” “案例 ”。 然 后 搜索 引擎 通 过 关键 词 索引 找到 包含 这 些 关 键 词 的 网 页 P={page1，page2，…，Ppagen}j， 并 通过 排序 算法 按照 网 页 的 重要 性 和 查询 相关 性 将 网 页 的 排序 结果 pager1> pager2>.… 
>pagern 返 回 给 用 户 ， 尽 量 将 满足 用 户 真实 需求 的 网 页 排 在 搜索 结果 的 痛 


局 | 


加 。 


通常 按照 排序 模型 之 间 是 否 有 查询 关系 ， 将 排序 模型 分 为 两 类 : 查询 相关 的 排序 模型 和 查询 无 关 的 排序 模型 。 查 询 无 关 的 排序 模型 ， 是 指 依照 文档 的 重要 程度 对 文档 进行 排序 ， 而 与 具体 的 查询 无 关 ， 
如 PageRank 模 型 ，HITS 模 型 ，TrustRank 模 型 等 。 而 查询 相关 的 排序 模型 ， 是 指 相对 一 个 查询 ， 按 照 与 查询 的 相关 程度 ， 对 文档 进行 排序 ， 已 经 提出 的 模型 有 布尔 模型 (Boolean Model) 、 向 量 空间 模 
型 (Vector Space Model) 、Okapi BM25 模 型 等 。 


查 训 
q=" Spark 数 据 分 析 案 例 " 
汪 分 闻 处 理 
k=t " Spark nn 效 扎 四 分 析 国 中 案 例 } 


排序 模型 查询 排序 结果 
一 一 一 一 一 - 


p={pagel, page,, ..., page,} page>pagey>...>page,.} 


图 11-2 ”查询 排序 的 基本 流程 


11.3 ”查询 无 关 模型 PageRank 


PageRank， 网 页 排名 ， 又 称 网 页 级 别 、Google 左 侧 排名 或 佩 奇 排名 ， 是 一 种 由 搜索 引擎 根据 网 页 之 间 相 互 的 超 链接 计算 的 技术 。 而 作为 网 页 排名 的 要 素 之 一 ， 以 Google 公 司 创 办 人 拉 里 . 佩 奇 (Larry 
Page) 之 姓 来 命名 。Google 用 它 来 体现 网 页 的 相关 性 和 重要 性 ， 在 搜索 引擎 优化 操作 中 是 经 常 被 用 来 评估 网 页 优化 的 成 效 因素 之 一 。Google 的 创始 人 拉 里 . 佩 奇 和 谢 尔 盖 布 林 于 1998 年 在 斯 坦 福 大 学 发 明 
了 这 项 技术 。 


PageRank 模 型 依靠 如 下 3 个 指标 评价 网 页 的 重要 性 。 


1) 认可 度 越 高 的 网 页 越 重 要 ， 即 反 向 链接 (Backlink) 越 多 的 网 页 越 重要 。 


2) 反 向 链接 的 源 网 页 质量 越 高 ， 被 这 些 高 质量 网 页 的 链接 指向 的 网 页 越 重 要 。 


3) 链接 数 越 少 的 网 页 越 重 要 。 


PageRank 采 用 如 下 公式 计算 : 


PRUD) 
PR(p)=1- dd 之 <A. trial 
p= Ee Mop) LP) 


PR(p) 
式 中 ，PR (pi) 为 网 页 p 的 PageRank 值 ; p1，p2，…，PN 为 网 络 中 的 所 有 网 页 ，N 是 网 页 的 总 数 ; L (pj) 为 网 页 p 的 外 链 总 数 ;d 为 阻尼 系数 ，0<d<1，d LP) 表示 在 随机 冲浪 模型 中 网 页 j 将 自身 的 
d 份 额 的 PageRank 值 平均 分 给 每 个 外 链 。 由 于 网 页 p 指 向 网 页 pi， 因 此 网 页 p 艾 得 来 自 网 页 pj 的 L (pj) 分 之 一 的 PageRank 值 ; d 的 一 个 常用 取 值 为 0.85。 


图 11-3 中 通过 一 个 简单 的 网 络 来 示范 PageRank 的 计算 方法 。 


11-3 。 PageRank 算法 示例 


假定 d=0.85， 那 么 根据 PageRank 的 计算 公式 可 以 得 到 如 下 的 方程 组 : 


PR(A)=0.15+0.85 ( PR(B)+ ~ 一 人 +PR(E 2D 9 和 9 4 ) 
PR(B)=0.15+0.85 x PR(A) 


PR(C)=0.15+0.85 区 人 2 全 二 +PR()+PR(K) ] 


PR(D)=PR(E)=0.15+0.85 x = 


PR(G)=PR(F=PR(D=PR(N=PR(K)=0.15 
解 这 个 方程 组 ， 得 到 所 有 网 页 的 PageRank 值 : 

PR (A) =4.18 

PR (B) =3.60 

PR (C) =0.75 

PR (D) =PR (E) =0.36 


PR (G) =PR (H) =PR (I) =PR (J) =PR (K) =0.15 


从 结果 中 可 以 看 到 ， 由 于 B 被 最 重要 的 A 引用 ， 即 使 B 的 引用 总 数 远 小 于 C，B 比 C 拥 有 更 高 的 PageRank 值 。 


11.4 ”基于 Spark 的 分 布 式 PageRank 实 现 


11.4.1 _ PageRank 的 MapReduce 实 现 


互联 网 目前 的 网 页 数量 已 经 超过 100 亿 ， 方 程 组 的 解法 需要 求解 一 个 100 亿 x100 人 2 矩阵 的 逆 和 矩阵 ， 而 直接 计算 如 此 大 规模 的 矩阵 求 逆 运算 是 不 可 行 的。 通常 求 解 PageRank 都 采用 人 迭代 公式 : 


PR+ 1(p)) 
PR(Pi)}=1-a+td 一 一 一 一 :一 (11-2 ) 
四 peEMp) LD) 


式 中 ，PRt (pi) 为 网 页 p 在 第 t 次 迭代 中 的 PageRank。 初 始 PageRank 值 通常 设 为 PRo (pi) =1。 


迭代 的 PageRank 求 解 需要 借助 分 布 式 MapReduce 方 案 来 实现 。 实 际 上 ，Google 发 明 MapReduce 最 初 就 是 为 了 分 布 式 计算 大 规模 网 页 的 PageRank。MapReduce 的 PageRank 有 很 多 实现 方式 ， 这 
里 给 出 一 种 较为 简单 的 基于 Spark 的 分 布 式 PageRank 实 现 。 


假设 输入 的 网 页 结构 数据 采用 稀 琉 和 矩阵 的 形式 表示 ， 每 一 个 网 页 以 及 其 引用 的 其 他 网 页 作为 一 行 存储 ， 存 储 在 文件 data/test_network.txt 当 中 。 例 如 ， 一 个 网 络 结构 可 以 表示 为 如 下 格式 : 


(1) 在 第 {次 迭代 的 Map 阶 段 


PR i(p) 
对 于 每 一 个 网 页 pj 和 任意 一 个 pj 引用 的 网 页 pi， 输 出 一 个 以 pi 为 Key， 以 PRt-1 (pj) 的 L (pj) 分 之 一 为 Value 的 〈Key，Value》 对 Lo) Se 例如 输入 网 络 结构 的 第 三 行 Map 的 输出 结果 为 
{ (A, PR (C) /3), (D, PR (C) /3), (E, PR (C) /3) }, 
(2) 在 第 t 次 迭代 的 Reduce 阶 段 


PR I(p) 
对 于 每 一 个 网 页 pj， 收 集 以 pj 为 Key 的 《Key,，Value》 对 ” LO) ) 用 于 更 新 PRt (pi) 。 


例如 ， 网 页 C 收 到 的 《Key，Value》 对 有 : (《C, PR (D) /2)，(C, PR (G) /2)，(C, PR (H) /2》，《〈C，PR (1) /2》，《〈C，PR (J) 》，《〈C，PR (K) 》， 则 网 页 C 的 PageRank 值 更 新 
为 


PR(C)=0.15+0.85 Ee + LRO , PRO) Si 


< 。 +PR(CJDJHPR(R) ) 


计算 PageRank 的 迭代 MapReduce 的 过 程 如 图 11-4 所 示 。 


输 2 ; 

二 人 PR,, (p,) 
p> Pi 1 (p,) 
B 
C Mapper 
D 
£ 

| PR (p,) 
G PR,(p)=1-drd 六 一 
H EM bE\py 
PrEMIPi 
Reducer 


图 11-4” PageRank 的 迭代 MapReduce 基 本 流程 


步骤 1 读 取 输入 文件 ， 将 每 一 行 原始 输入 ， 例 如 C A D E， 输 出 网 页 之 间 的 链接 关系 , 例如 (C, A) 、(C，D) 、 (C，E) ， 并 将 结果 缓存 到 内 存 变量 links 中 ， 得 到 引用 关系 : 


val lines = sc.textFile ("data/test network.txt") 
val links = lines.flatMap (line => { 

val list = line.split ("\\s+") 

list.drop(1) .map( (list (0), )) 
}) .groupByKey () .cache () 


步骤 2 初始 PageRank 值 为 1.0: 


var ranks = links.mapValues (Vv => 1.0) 


步骤 3 迭代 100 次 MapReduce， 计 算 网 页 的 PageRank 值 : 


for (i <- 1 to 100 { 
/* Map 操 作 */ 
/* 每 一 个 网 页 对 其 他 网 页 的 贡献 ， 是 其 当前 的 PageRank 值 除 以 链接 数量 ， 即 rank / size。 
同时 ， 对 于 没有 输入 链接 的 网 页 ， 其 得 到 的 PageRank 贡 献 为 0 */ 
valcontribs = links.join(ranks) .values.flatMap{ case (urls, rank) => 
val size = urls.size 
urls.map(url => (url, rank / size)) 
}.union (links.mapValues (v =>0.0)) 
/* Reduce 操 作 */ 
/* 网 页 的 新 PageRank 值 等 于 0.15 加 入 0.85 倍 的 其 得 到 的 其 他 网 页 的 PageRank 贡 献 */ 
ranks = contribs.reduceByKey(_ + _) .mapValues(0.15 + 0.85 * ) 


步骤 4 输出 结果 : 


val output = ranks.sortByKey() .collect () 
output .foreach (tup =>println(tup. 1 + " has rank: " + tup. 2 + ".")) 


程序 的 输出 结果 如 下 : 

A has rank: 4.12132060761008. 
B has rank: 3.65312278414738. 
C has rank: 0.7503552818569399 . 
D has rank: 0.3626006631927996 . 
E has rank: 0.3626006631927996 . 
G has rank: 0.15, 

H has rank: 0.15. 

I has rank: 0.15。 

J has rank: 0.15. 

K has rank: 0.15. 


11.5 案例: GoogleWeb Graph 的 PageRanki 计 算 


在 本 案例 中 继续 使 用 SNAP 项 目的 数据 集 。SNAP 项 目 中 包括 4 个 Web 网 络 的 数据 集 ， 分 别 如 下 。 


“ Berkeley-Stanford web graph: 2002 年 采集 于 berkely.edu 和 stanford.edu， 包 含 685230 个 网 页 和 7600595 条 链接 。 


“Stanford web graph: 2002 年 采集 于 stanford.edu， 和 包含 281903 个 网 页 和 2312497 条 链接 。 
“ Note Dame web graph: 1999 年 采集 于 nd.edu， 包 含 325729 个 网 页 和 1497134 条 链接 。 


“ Google web graph: 在 2002 年 的 Google Programming Contest 上 发 布 ， 包 括 875713 个 网 页 和 5105039 条 链接 。 


每 一 个 Web 网 络 的 数据 集 都 极为 稀疏 。 例 如 Google web graph 的 稀疏 度 就 达到 了 0.9999933%， 因 此 数据 集 都 采用 稀 踊 表 的 表示 方法 。Google web graph 部 分 数据 如 下 : 


# Directed graph (each unordered pair of nodes is saved once): web-Google.txt 
# Webgraph from the Google programming contest, 2002 
# Nodes: 875713 Edges: 5105039 


# FromNodeId ToNodeId 
0 11342 

0 824020 

0 867923 

0 891835 
11342 0 

11342 27469 
11342 38716 


处 理 稀疏 表格 式 的 数据 以 使 用 GraphX 的 GraphLoader 对 象 直接 处 理 ， 因 此 求解 Google web graph 的 PageRank 值 全 部 代码 如 下 。 


步骤 1 读 取 输入 文件 ,创建 Graph 对 象 : 


importorg.apache.spark.graphx._ 
val graph = GraphLoader.edgeListFile(sc, "data/google/web.txt") 


步骤 2 计算 PageRank 值 : 


Val ranks = graph.pageRank (0.001) .vertices 


步骤 3 输出 PageRank 值 最 大 的 10 个 节点 : 


valtopN = 10 
val output = ranks.map{case (k,v)=> (V,k) } .top (topN) 
output.foreach (tup =>println(tup. 2 + " has rank: " + tup. 1 + ".")) 


程序 输出 PageRank 值 最 大 的 前 10 个 节点 是 : 


1676 has rank: 2.2791120633827946. 
1020 has rank: 2.2310326676914993. 


386 has rank: 2.129816969274568. 
222 has rank: 2.1093782403008285. 
227 has rank: 2.0502512054468944 . 
388 has rank: 2.0261023557995665 . 
389 has rank: 2.016710462869232 . 
688 has rank: 1.9398379460481705. 
226 has rank: 1.900479925745788. 
842 has rank: 1.896261314606748. 


11.6 ”查询 相关 模型 Ranking SVM 


Ranking SVM 是 一 种 基于 SVM 分 类 器 的 pair-wise 排 序 模型 。 所 谓 pair-wise 排 序 模型 ， 是 指 通过 对 同一 个 查询 下 的 所 有 搜索 结果 ， 按 照 它 们 和 目标 查询 之 间 的 相似 度 进行 两 两 比较 ， 从 而 得 到 搜索 结果 


的 展示 顺序 。 而 Ranking SVM 则 是 通过 事先 训练 好 一 个 SVM 分 类 器 来 进行 搜索 结果 两 两 比较 。 


通过 一 个 示例 来 解释 Ranking SVM 是 如 何 产生 用 于 训练 SVM 分 类 器 的 训练 样本 。 假 设 有 一 个 用 户 使 用 搜索 引 丈 搜索 关键 词 “Support Vector Machine”， 搜 索引 擎 返回 的 前 10 条 搜索 结果 如 下 。 在 这 


10 条 搜索 结果 当中 ， 只 单 击 了 链接 1、4、7 (用 加 粗 字体 表示 ) ， 而 放弃 了 其 他 的 结果 链接 。 


1.Support Vector Machine 

http://jbolivar.freeservers.com/ 

2.Kernel Machines 

http://svm.first.gmd.de/ 

3.SVM-Light Support Vector Machine 
http://ais.gmd.de/~thorsten/svm light/ 

4.An Introduction to Support Vector Machines 
http://www.support-vector.net/ 

5.Support Vector Machine and Kernel Methods References 
http://svm.research.bell-labs.com/SVMrefs.html 

6.Archives of SUPPORT-VECTOR-MACHINES@JISCMAIL.AC.UK 
http://www.jiscmail.ac.uk/lists/SUPPORT-VECTORMACHINES.html 
7.Support Vector Machine - The Software 
http://www.support-vector.net/software.html 

8.Lucent Technologies: SVM demo applet 
http://svm.research.bell-labs.com/SVT/SVMsvt.html 

9.Royal Holloway Support Vector Machine 
http://svm.dcs.rhbnc.ac.uk/ 

10.Lagrangian Support Vector Machine Home Page 


http://www.cs.wisc.edu/dmi/lsvm 


首先 ， 从 用 户 的 点 击 行为 中 并 不 能 推导 出 链接 1、4、7 与 查询 关键 词 相 似 度 的 大 小 顺序 。 同 时 ， 由 于 用 户 的 点 击 行为 本 身 会 受到 搜索 引擎 的 排序 结果 影响 ， 用 户 通常 会 更 偏向 
因此 也 不 能 百 分 百 地 肯定 链接 1、4、7 与 查询 关键 词 相似 度 就 大 于 其 他 所 有 用 户 未 选择 的 链接 。 


于 选择 位 置 考 前 的 链接 ， 


但 是 ， 从 用 户 的 点 击 行为 中 可 以 判断 ， 链 接 4 与 查询 关键 词 的 相似 度 一 定 大 于 链接 2、3， 而 链接 7 与 查询 关键 词 的 相似 度 一 定 大 于 链接 2、3、5、6。 这 是 因为 假设 用 户 从 上 往 下 检查 搜索 结果 ， 即 使 搜索 


引擎 把 其 他 结果 推荐 到 了 链接 4 和 7 前 面 ， 用 户 还 是 选择 了 链接 4 和 7， 即 
rank(la)>rank(ly) Fa)>7ramK(D) 
rank(la)>rank(ls) rank(l)>rank(i;) 
rank(l;)>rank(is) 
rank(l)>rank(ile) 


Ranking SVM 算 法 通过 一 个 映射 函数 中 将 查询 q 和 链接 | 映射 到 一 个 特征 空间 R" 当 中 ， 该 特征 空间 得 到 的 映射 结果 向 量 x 用 来 表示 查询 q 和 链接 | 在 各 个 方面 的 相似 度 。 实 际 工程 
“ 关键 词 覆 盖 数 / 率 (CoverTerm Number/Ratio) : 查询 的 关键 词 中 ， 在 搜索 结果 的 标题 、 正 文中 出 现 关键 词 个 数 / 占 查询 关键 词 总 数 的 比例 。 

“ 关键 词 命中 率 〈Term Frequency，TF) : 查询 的 关键 词 在 链接 网 页 的 标题 、 正 文部 分 出 现 的 次 数 占 网 页 单词 总 数 的 比例 。 

“ 北向 文件 频率 (inverse document frequency，IDF) : 某 个 查询 关键 词 的 IDF， 是 索引 中 总 网 页 数目 除 以 包含 该 词语 之 搜索 结果 的 数目 ， 再 将 得 到 的 商 取 对 数 。 

“ 关键 词 命中 率 X 逆 向 文件 频率 (TfIdf) : 查询 关键 词 的 关键 词 命中 率 和 逆向 文件 频率 的 乘积 。 

“ TF、IDF 和 TfIdf 统 计 指 标 : 所 有 查询 关键 词 TF、IDF 和 TfIdf 的 求 和 Sum、 最 大 值 Max、 最 小 值 Min、 平 均值 Mean 和 方差 Variance 等 。 

“ 其 他 指标 : 包括 搜索 结果 的 PageRank 值 ， 更 新 时 间 Update Time， 用 户 评分 Score 等 。 


在 映射 函数 中 已 知 的 情况 下 ， 就 可 以 将 查询 q="SupportVectorMachine" 和 搜索 结果 li (i=2，3，4，.…，7) 映射 为 特征 向 量 xi;， 即 xi= 中 (q，1i) 。 根 据 上 文 给 出 的 链接 相关 | 
4xrxj，Wi》 ， 其 中 


1， 7a1kD < rank()) 
1, rank(li) 三 rank()) 


中 常用 的 映射 函数 如 下 。 


度 大 小 对 比 ， 定 义 训练 样本 


Ranking SVM 产生 训练 样本 的 过 程 如 


网 


11-5 所 示 。 


2 


J 


图 11-5 ”Ranking SVM 基 本 原理 


Ranking SVM 产生 训练 样本 的 过 程 ， 就 是 将 搜索 结果 排序 问题 转换 成 为 训练 SVM 分 类 器 进行 二 分 类 问题 。 支 持 向 量 机 SVM 是 一 种 常用 监督 学 习 算法 ， 通 过 寻找 最 大 间隔 超 平面 ， 即 使 得 属于 两 个 不 同 
类 的 数据 点 间隔 最 大 的 平面 ， 对 数据 进行 分 类 。 一 般 地 ，SVM 的 优化 目标 函数 为 


min lolP+C26 ( 11-3) 


Web 


T 2 2 
st. Jow Xb) 三 1-6, G0 


式 中 ，w 为 超 平面 的 法 向 量 ; b 为 超 平 面 的 截 距 ; 5 为 用 于 控制 错误 率 的 松弛 变量 。 


利用 SVM 分 类 器 ，Ranking SVM 通过 两 两 比较 搜索 结果 与 查询 的 相关 度 来 对 搜索 结果 排序 。 和 SVM 类 似 ，Ranking SVM 的 优化 目标 为 


min> I@| C96 (11-4) 


口上 ij 


St. Ww (0w,B(g,l)-B$(qg.)) ) 三 1-6, G0 


式 中 ，w 为 超 平面 的 法 向 量 ; 引 为 用 于 控制 错误 率 的 松弛 变量 。 由 图 11-5 可 知 ， 由 于 正 负 样 本 对 称 ， 因 此 超 平面 截 距 b=0。 


11.7 _ Spark 中 支持 向 量 机 的 实现 


11.7.1 _ Spark 中 的 支持 向 量 机 模型 


Spark 的 MLIib 提 供 了 多 种 线性 分 类 器 算法 的 分 布 式 实现 ， 包 括 前 面 章节 已 经 介绍 过 的 Logistics 回 归 ， 还 有 支持 向 量 机 SVM 和 朴素 贝 叶 斯 等 。 


Ranking SVM 算法 的 基础 是 SVM 模型 ， 因 此 先 介绍 一 下 Spark 的 MLlib 中 SVM 的 对 象 和 函数 。 在 org.apache.spark.mllib.classification 中 提供 了 SVM 相关 的 两 个 对 象 : SVMWithSGD 和 SVMMeodel。 


SVMWitnsGD 提 供 了 支持 向 量 机 基于 随机 梯度 下 降 算法 的 求解 。SVM WithSGD 需 要 设置 的 参数 较 少 ， 通 常 只 需要 设置 SVMWithSGD 的 优化 对 象 SVMWithsGD.optimizer 的 相关 参数 : 
“def setNumIterations (iters: Int) : GradientDescent.this.typpe”: 设置 最 大 的 迭代 次 数 。 

“def setRegParam (regParam: Double) : GradientDescent.this.type”: 设置 正则 系数 。 

， “def setUpdater (updater: Updater) : GradientDescent.this.type”: 设置 正则 项 的 类 型 ，L1 或 者 L2 正 则 。 

“def setStepSize (step: Double) : GradientDescent.this.type”: 设置 迭代 的 步 长 。 

SVMWithSGD 的 训练 函数 run () 接受 类 型 为 RDD[LabeledPoint] 输 入 ， 训 练 结果 返回 到 SVM Model 对 象 中 。 

对 象 SVMMeodel 中 则 保存 了 支持 向 量 机 的 训练 结果 ， 包 含 如 下 函数 和 变量 。 

“def predict (testData: RDDI[Vectod) : RDD[Double]”: 利用 训练 模型 ， 预 测 测试 数据 的 类 型 。 


.+ “val weights: Vector”: 返回 每 个 特征 在 训练 模型 中 的 权重 。 


11.8 ”案例 : 基于 MSLR 数 据 集 的 查询 排序 


11.8.1 _ Microsoft Learning to Rank 数 据 集 介绍 


Microsoft Learning to Rank 数 据 集 是 一 套 常 用 的 搜索 引擎 研究 数据 集 。 数 据 集中 所 有 的 查询 、 文 档 、 标 注 结果 都 来 自 商用 搜索 引擎 Microsoft Bing， 并 共 分 为 两 个 部 分 : MSLR-WEB30K 和 MSLR- 
WEB10K。 


MSLR-WEB30K 的 查询 数 超过 30000 个 ， 而 MSLR-WEB10K 是 从 MSLR-WEB30K 中 随机 采样 构成 的 。 数 据 集 的 每 一 行为 一 个 查询 + 文档 对 ， 是 由 相关 度 标注 、 查 询 ID 以 及 排序 特征 向 量 组 成 的 。 相 关 度 
标注 采用 5 级 的 方式 ，0 表 示 不 相关 ，4 表 示 最 相关 ， 随 着 数字 的 增加 ， 查 询 与 文档 的 相关 度 增高 。 数 据 集 的 格式 示例 如 下 : 


:2 4:2 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15547/OEBPS/Text/... 135:0 136:0 
0 4:0 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15547/OEBPS/Text/... 135:0 136:0…… 


其 中 第 一 列 是 查询 和 搜索 结果 的 相关 度 标 度 ， 第 二 列 是 查询 的 ID 号 ， 其 他 的 列 是 特征 向 量 。 


每 个 数据 集 都 按照 查询 的 个 数 均 分 成 为 了 5 份 ， 记 为 S14、S2、S3、S4 和 S5， 用 于 五 倍 交叉 验证 。 在 每 一 个 设置 中 ， 其 中 三 份 作为 训练 集 ， 一 份 作为 校 验 集 ， 最 后 一 份 作为 测试 集 。 训 练 集 用 于 排序 模型 
的 训练 ， 测 试 集 用 于 检验 模型 的 准确 率 ， 而 校 验 集 用 于 调整 模型 的 参数 ， 例 如 迭代 次 数 和 正则 系数 等 。 数 据 集 的 描述 如 表 11-1 所 示 。 


表 11-1 MSLR 数 据 集 介 绍 


训练 集 校 验 集 测试 集 
Fold 2 S2，S3，S4 S5 Sl 


Fold 5 SS5, Sl, S2 S3 S4 


MSLR 数 据 集 的 排序 特征 向 量 是 由 136 个 特征 组 成 ， 包 括 查询 的 TFT、IDF、Tfldf 值 的 各 项 统计 指标 ，PageRank 值 和 SiteRank 值 〈( 即 站 点 级 的 PageRank) ， 网 页 质量 评分 ， 网 页 延迟 等 。 


11.9 ”本章 小 结 


本 章 介 绍 了 搜索 引 警 的 基本 概念 ， 以 及 搜索 排序 的 核心 算法 PageRank 和 Ranking SVM 的 基本 原理 。 然 后 给 出 了 Spark 中 PageRank 和 Ranking SVM 的 相关 类 型 和 函数 ， 以 及 基本 的 程序 示例 。 最 后 基 
于 SNAP 数 据 集 和 MSLR 数 据 集 ， 给 出 了 Spark 实 现 搜索 排序 算法 的 案例 。 


